Apache Spark
Apache Spark는 대규모 데이터 처리를 위한 분석 엔진이다. Spark에는 Cloud SQL, 스트리밍, 머신러닝, 그래프를 위한 라이브러리가 있다.
- Spark를 사용하면 여러 컴퓨터에서 데이터 작업 (전처리, 기능 엔지니어링, 훈련)을 실행할 수 있다.
- 스파크의 핵심 아이디어는 복원력 있는 분산 데이터 세트 (RDD)라는 개념이다.
- 이 핵심 아이디어를 사용하여 Spark는 내결함성과 규모를 관리할 수 있다.
- Spark에는 pandas 및 R과 유사한 dataframe 이라는 추상 데이터 유형도 있다.
- Spark 데이터프레임 인터페이스는 RDD 위에 위치하며 작업에 대한 보다 접근하기 쉬운 사양을 허용한다.
- 주로 일반적인 단일 시스템이 처리할 수 있는 것보다 훨씬 큰 데이터 볼륨을 본다.
|
PySpark
- PySpark는 Python을 사용하여 Spark에 액세스하는 방법이다.
- ML 작업의 대부분이 Python에서 수행되므로 이는 대규모 데이터 볼륨으로 확장하는 데 매우 유용한 도구이다.
|
컨테이너 배포
- 컨테이너는 기본 노드에서 격리되어 실행되어야 한다. 즉, 학습 코드는 여러 머신에 분산될 수 없다. 그리고 훈련할 데이터가 매우 큰 경우에는 이것이 필요하다.
- Spark를 사용하면 훈련과 제공 모두를 위해 노드 전체에 작업을 확장할 수 있는데, 이는 특정 비즈니스 시나리오에서 컨테이너화된 훈련 파이프라인에 비해 뚜렷한 이점이다.
|