728x90 반응형 SMALL Container Deployments1 Apache Spark Apache Spark Apache Spark는 대규모 데이터 처리를 위한 분석 엔진이다. Spark에는 Cloud SQL, 스트리밍, 머신러닝, 그래프를 위한 라이브러리가 있다. Spark를 사용하면 여러 컴퓨터에서 데이터 작업 (전처리, 기능 엔지니어링, 훈련)을 실행할 수 있다. 스파크의 핵심 아이디어는 복원력 있는 분산 데이터 세트 (RDD)라는 개념이다. 이 핵심 아이디어를 사용하여 Spark는 내결함성과 규모를 관리할 수 있다. Spark에는 pandas 및 R과 유사한 dataframe 이라는 추상 데이터 유형도 있다. Spark 데이터프레임 인터페이스는 RDD 위에 위치하며 작업에 대한 보다 접근하기 쉬운 사양을 허용한다. 주로 일반적인 단일 시스템이 처리할 수 있는 것보다 훨씬 큰 데이터.. 2024. 1. 8. 이전 1 다음 728x90 반응형 LIST