본문 바로가기
Data-driven Methodology/Spark

Apache Spark

by goatlab 2024. 1. 8.
728x90
반응형
SMALL

Apache Spark

 

 

Apache Spark는 대규모 데이터 처리를 위한 분석 엔진이다. Spark에는 Cloud SQL, 스트리밍, 머신러닝, 그래프를 위한 라이브러리가 있다.

 

  • Spark를 사용하면 여러 컴퓨터에서 데이터 작업 (전처리, 기능 엔지니어링, 훈련)을 실행할 수 있다.
  • 스파크의 핵심 아이디어는 복원력 있는 분산 데이터 세트 (RDD)라는 개념이다.
  • 이 핵심 아이디어를 사용하여 Spark는 내결함성과 규모를 관리할 수 있다.
  • Spark에는 pandas 및 R과 유사한 dataframe 이라는 추상 데이터 유형도 있다.
  • Spark 데이터프레임 인터페이스는 RDD 위에 위치하며 작업에 대한 보다 접근하기 쉬운 사양을 허용한다.
  • 주로 일반적인 단일 시스템이 처리할 수 있는 것보다 훨씬 큰 데이터 볼륨을 본다.

 

PySpark

 

  • PySpark는 Python을 사용하여 Spark에 액세스하는 방법이다.
  • ML 작업의 대부분이 Python에서 수행되므로 이는 대규모 데이터 볼륨으로 확장하는 데 매우 유용한 도구이다.

 

컨테이너 배포

 


  • 컨테이너는 기본 노드에서 격리되어 실행되어야 한다. 즉, 학습 코드는 여러 머신에 분산될 수 없다. 그리고 훈련할 데이터가 매우 큰 경우에는 이것이 필요하다.
  • Spark를 사용하면 훈련과 제공 모두를 위해 노드 전체에 작업을 확장할 수 있는데, 이는 특정 비즈니스 시나리오에서 컨테이너화된 훈련 파이프라인에 비해 뚜렷한 이점이다.
728x90
반응형
LIST

'Data-driven Methodology > Spark' 카테고리의 다른 글

[Spark] 스파크 클러스터  (0) 2024.01.08