본문 바로가기
Data-driven Methodology

빅데이터와 기존 AI의 당면 과제 (1)

by goatlab 2023. 9. 20.
728x90
반응형
SMALL

빅데이터의 정의

 

빅데이터는 방대한 양의 정보를 나타낸다. 이 정보는 이제 기하급수적인 속도로 증가하고 있다. 이제 인간이 매일 200경 바이트의 데이터를 생성함에 따라 빅데이터는 너무 커졌다. 따라서, 기존 데이터 관리 도구로는 ML 목적을 위해 빅데이터를 매우 효율적으로 처리하는 것이 상당히 어려워지고 있다. 빅데이터의 특성을 정의하는 데 일반적으로 다음과 같이 사용된다.

 

  • 볼륨 (Volume) : 비즈니스 거래, 사물 인터넷 (IoT) 장치, 소셜 미디어, 산업 장비, 비디오 등과 같은 다양한 소스의 데이터가 엄청난 양의 데이터에 기여한다.
  • 속도 (Velocity): 데이터 속도도 빅데이터의 필수 특성이다. 실시간 또는 거의 실시간으로 데이터가 필요한 경우가 많다.
  • 다양성 (Variety) : 데이터는 숫자 데이터, 텍스트 문서, 이미지, 비디오, 이메일, 오디오, 금융 거래 등 모든 형식으로 제공된다.

 

1880년 미국 (US) 인구 조사국은 인구 조사에서 많은 데이터를 수집했으며 그 양의 데이터를 처리하는 데 8년이 걸릴 것으로 추정했다. 다음 해에 Herman Hollerith라는 사람이 Hollerith 표 작성 기계를 발명했는데, 이는 데이터 처리에 필요한 작업을 줄였다. 최초의 데이터 센터는 지문 데이터와 세금 정보를 저장하기 위해 1965년에 건설되었다.

 

현재의 빅데이터

 

데이터 레이크 개념의 도입은 오늘날 데이터 작업에서 볼 수 있는 대규모 규모를 가져오는 데 중요한 역할을 했다. 데이터 레이크는 회사가 운영 중에 관찰된 임의 유형의 데이터를 저장할 수 있는 완전한 자유를 제공하며, 그렇지 않으면 회사가 향후 필요하게 되는 일부 데이터를 수집하지 못하게 하는 제한 사항을 제거한다. 이러한 자유로 인해 데이터 레이크는 회사에서 생성된 데이터의 잠재력을 최대로 유지할 수 있지만 수집된 데이터를 이해하는 데 안주하는 주요 문제로 이어질 수도 있다. 다양한 유형의 데이터를 구조화되지 않은 방식으로 쉽게 저장할 수 있다는 점은 실제로 지금 저장하고 나중에 정리하는 방식으로 이어질 수 있다. 구조화되지 않은 데이터 작업의 진정한 어려움은 실제로 데이터 처리에서 비롯된다. 따라서, 지연된 처리 사고 방식은 데이터 수집의 무제한 증가로 인해 선별하고 작업하기가 매우 번거로운 데이터 레이크로 이어질 가능성이 있다.

 

원시 데이터는 그로부터 파생될 수 있는 모델과 통찰력만큼만 가치가 있다. 중앙 데이터 레이크 접근 방식은 구조 부족으로 인해 데이터 파생이 제한되는 경우가 발생하여 저장 비효율성부터 추출 어려움으로 인한 실제 인텔리전스 비효율성까지 다양한 문제가 발생한다. 반면, 이전 데이터 레이크 접근 방식은 잠재적으로 사용 가능한 데이터 양에 대한 액세스가 부족하다는 문제로 어려움을 겪었다. FL이 두 가지 유형의 문제를 모두 피할 수 있다는 사실은 빅데이터를 집단지성 시대로 발전시킬 수단으로서 FL을 지원하는 핵심 원동력이다.

 

이러한 주장은 FL이 빅데이터 흐름을 수집 → 지능 도출에서 지능 도출 → 수집으로 전환한다는 사실에서 입증된다. 인간에게 있어서 지능은 광범위한 경험이 응축된 형태로 생각될 수 있다. 유사한 방식으로, 생성된 데이터 소스에서 인텔리전스 도출 (소스 위치의 데이터에 대한 모델 훈련을 통해 수행)은 실제 애플리케이션에 대한 접근성을 최대화하는 형식으로 데이터를 간결하게 요약한다. FL의 후기 수집 단계는 최대의 데이터 액세스 및 데이터 저장 효율성을 갖춘 원하는 글로벌 인텔리전스의 생성으로 이어진다. 생성된 데이터 소스를 부분적으로 사용하는 경우에도 잔여 데이터 레이크에 입력되는 데이터 형식의 수를 크게 줄여 인텔리전스와 데이터의 공동 저장을 통해 큰 이점을 얻을 수 있다.

728x90
반응형
LIST