728x90 반응형 SMALL Data-driven Methodology/Spark5 [Spark] Jupyter Lab 디렉토리 설정 cd work/mkdir jupytercd jupyter/ 주피터 랩 설치 및 환경 설정 pyenv activate py3_11_9pip install jupyterlabjupyter lab --generate-config 처음 디렉토리로 이동하여 다음 명령을 실행한다. cd .jupyter/vim jupyter_lab_config.py 에디터에서 다음 코드를 c 객체 밑에 추가한다. c.NotebookApp.ip = '0.0.0.0' # 모든 네트워크 요청 수신c.NotebookApp.open_browser = False # 자동으로 웹 브라우저를 열지 않음c.NotebookApp.port = 8888 # 주피터 랩 서버가 사용할 포트 번호c.Noteboo.. 2024. 7. 15. [Spark] 데이터프레임 및 SQL 디렉토리 설정 mkdir workcd workmkdir sparkcd spark Pandas로 CSV 읽기 pyenv activate py3_11_9pythonimport pandas as pdurl = 'https://raw.githubusercontent.com/losskatsu/data-example/main/data/iris.csv'df = pd.read_csv(url)df.head(3) CSV 추출 및 parquet 변환 df.to_parquet('/home/ubuntu/work/spark/iris.parquet', index=False)df.to_csv('/home/ubuntu/work/spark/iris.csv', index=False)quit() SQL pyspark.sql은 데이터프레임과.. 2024. 7. 15. [Spark] PySpark 설치 리눅스 sudo apt-get updatesudo apt-get install net-tools pyenv sudo apt-get update; sudo apt-get install make build-essential libssl-dev zlib1g-dev \libbz2-dev libreadline-dev libsqlite3-dev wget curl llvm \libncursesw5-dev xz-utils tk-dev libxml2-dev libxmlsec1-dev libffi-dev liblzma-devcurl https://pyenv.run | bashexport PYENV_ROOT="$HOME/.pyenv"[[ -d $PYENV_ROOT/bin ]] && export PATH="$PYENV_RO.. 2024. 7. 15. [Spark] 스파크 클러스터 스파크 클러스터 실행 환경은 일반적으로 여러 시스템 (ex: 클러스터)에 분산된다. 실행을 위해 작업을 클러스터에 제출한다. Spark 자체는 Scala / Java로 작성되었다. 그러나 Python 인터페이스를 사용하면 데이터 과학 전문가가 이점을 누릴 수 있다. 배포 유형 자체 호스팅 클러스터 배포 (24시간 풀타임 엔지니어가 필요) 클라우드 솔루션 (ex: Google Cloud의 Cloud Dataproc 및 AWS의 EMR) 공급 업체 기반 배포 (ex: Databricks) 여기서 공급 업체는 GCP, AWS 및 Azure와 같은 IAAS 제공업체 위에 위치한다. 여러 데이터 과학 도구에 쉽게 액세스할 수 있다. Airflow 및 MLflow와 같은 워크플로 관리 도구와 통합된다. PySpar.. 2024. 1. 8. Apache Spark Apache Spark Apache Spark는 대규모 데이터 처리를 위한 분석 엔진이다. Spark에는 Cloud SQL, 스트리밍, 머신러닝, 그래프를 위한 라이브러리가 있다. Spark를 사용하면 여러 컴퓨터에서 데이터 작업 (전처리, 기능 엔지니어링, 훈련)을 실행할 수 있다. 스파크의 핵심 아이디어는 복원력 있는 분산 데이터 세트 (RDD)라는 개념이다. 이 핵심 아이디어를 사용하여 Spark는 내결함성과 규모를 관리할 수 있다. Spark에는 pandas 및 R과 유사한 dataframe 이라는 추상 데이터 유형도 있다. Spark 데이터프레임 인터페이스는 RDD 위에 위치하며 작업에 대한 보다 접근하기 쉬운 사양을 허용한다. 주로 일반적인 단일 시스템이 처리할 수 있는 것보다 훨씬 큰 데이터.. 2024. 1. 8. 이전 1 다음 728x90 반응형 LIST