본문 바로가기
728x90
반응형
SMALL

Data-driven Methodology/Spark2

[Spark] 스파크 클러스터 스파크 클러스터 실행 환경은 일반적으로 여러 시스템 (ex: 클러스터)에 분산된다. 실행을 위해 작업을 클러스터에 제출한다. Spark 자체는 Scala / Java로 작성되었다. 그러나 Python 인터페이스를 사용하면 데이터 과학 전문가가 이점을 누릴 수 있다. 배포 유형 자체 호스팅 클러스터 배포 (24시간 풀타임 엔지니어가 필요) 클라우드 솔루션 (ex: Google Cloud의 Cloud Dataproc 및 AWS의 EMR) 공급 업체 기반 배포 (ex: Databricks) 여기서 공급 업체는 GCP, AWS 및 Azure와 같은 IAAS 제공업체 위에 위치한다. 여러 데이터 과학 도구에 쉽게 액세스할 수 있다. Airflow 및 MLflow와 같은 워크플로 관리 도구와 통합된다. PySpar.. 2024. 1. 8.
Apache Spark Apache Spark Apache Spark는 대규모 데이터 처리를 위한 분석 엔진이다. Spark에는 Cloud SQL, 스트리밍, 머신러닝, 그래프를 위한 라이브러리가 있다. Spark를 사용하면 여러 컴퓨터에서 데이터 작업 (전처리, 기능 엔지니어링, 훈련)을 실행할 수 있다. 스파크의 핵심 아이디어는 복원력 있는 분산 데이터 세트 (RDD)라는 개념이다. 이 핵심 아이디어를 사용하여 Spark는 내결함성과 규모를 관리할 수 있다. Spark에는 pandas 및 R과 유사한 dataframe 이라는 추상 데이터 유형도 있다. Spark 데이터프레임 인터페이스는 RDD 위에 위치하며 작업에 대한 보다 접근하기 쉬운 사양을 허용한다. 주로 일반적인 단일 시스템이 처리할 수 있는 것보다 훨씬 큰 데이터.. 2024. 1. 8.
728x90
반응형
LIST