본문 바로가기

Data-driven Methodology/Spark

Apache Spark

by goatlab 2024. 1. 8.

728x90

SMALL

Apache Spark

Apache Spark는 대규모 데이터 처리를 위한 분석 엔진이다. Spark에는 Cloud SQL, 스트리밍, 머신러닝, 그래프를 위한 라이브러리가 있다.

Spark를 사용하면 여러 컴퓨터에서 데이터 작업 (전처리, 기능 엔지니어링, 훈련)을 실행할 수 있다.
스파크의 핵심 아이디어는 복원력 있는 분산 데이터 세트 (RDD)라는 개념이다.
이 핵심 아이디어를 사용하여 Spark는 내결함성과 규모를 관리할 수 있다.
Spark에는 pandas 및 R과 유사한 dataframe 이라는 추상 데이터 유형도 있다.
Spark 데이터프레임 인터페이스는 RDD 위에 위치하며 작업에 대한 보다 접근하기 쉬운 사양을 허용한다.
주로 일반적인 단일 시스템이 처리할 수 있는 것보다 훨씬 큰 데이터 볼륨을 본다.

PySpark

PySpark는 Python을 사용하여 Spark에 액세스하는 방법이다.
ML 작업의 대부분이 Python에서 수행되므로 이는 대규모 데이터 볼륨으로 확장하는 데 매우 유용한 도구이다.

컨테이너 배포

컨테이너는 기본 노드에서 격리되어 실행되어야 한다. 즉, 학습 코드는 여러 머신에 분산될 수 없다. 그리고 훈련할 데이터가 매우 큰 경우에는 이것이 필요하다.
Spark를 사용하면 훈련과 제공 모두를 위해 노드 전체에 작업을 확장할 수 있는데, 이는 특정 비즈니스 시나리오에서 컨테이너화된 훈련 파이프라인에 비해 뚜렷한 이점이다.

728x90

LIST

저작자표시 비영리 변경금지 (새창열림)

'Data-driven Methodology > Spark' 카테고리의 다른 글

[Spark] Jupyter Lab (0)	2024.07.15
[Spark] 데이터프레임 및 SQL (0)	2024.07.15
[Spark] PySpark 설치 (0)	2024.07.15
[Spark] 스파크 클러스터 (0)	2024.01.08

티스토리툴바