본문 바로가기
728x90
반응형
SMALL

스파크4

[Spark] Jupyter Lab 디렉토리 설정 cd work/mkdir jupytercd jupyter/ 주피터 랩 설치 및 환경 설정 pyenv activate py3_11_9pip install jupyterlabjupyter lab --generate-config 처음 디렉토리로 이동하여 다음 명령을 실행한다. cd .jupyter/vim jupyter_lab_config.py 에디터에서 다음 코드를 c 객체 밑에 추가한다. c.NotebookApp.ip = '0.0.0.0' # 모든 네트워크 요청 수신c.NotebookApp.open_browser = False # 자동으로 웹 브라우저를 열지 않음c.NotebookApp.port = 8888 # 주피터 랩 서버가 사용할 포트 번호c.Noteboo.. 2024. 7. 15.
[Spark] 데이터프레임 및 SQL 디렉토리 설정 mkdir workcd workmkdir sparkcd spark Pandas로 CSV 읽기 pyenv activate py3_11_9pythonimport pandas as pdurl = 'https://raw.githubusercontent.com/losskatsu/data-example/main/data/iris.csv'df = pd.read_csv(url)df.head(3) CSV 추출 및 parquet 변환 df.to_parquet('/home/ubuntu/work/spark/iris.parquet', index=False)df.to_csv('/home/ubuntu/work/spark/iris.csv', index=False)quit() SQL pyspark.sql은 데이터프레임과.. 2024. 7. 15.
[Spark] PySpark 설치 리눅스 sudo apt-get updatesudo apt-get install net-tools  pyenv sudo apt-get update; sudo apt-get install make build-essential libssl-dev zlib1g-dev \libbz2-dev libreadline-dev libsqlite3-dev wget curl llvm \libncursesw5-dev xz-utils tk-dev libxml2-dev libxmlsec1-dev libffi-dev liblzma-devcurl https://pyenv.run | bashexport PYENV_ROOT="$HOME/.pyenv"[[ -d $PYENV_ROOT/bin ]] && export PATH="$PYENV_RO.. 2024. 7. 15.
[Hadoop] 클러스터 실행 스크립트 생성 전체 시작 스크립트  master1 서버에서 작업한다. 지금까지 설정한 Hadoop, Yarn, Spark, Zookeeper를 모두 실행 시키는 cluster-start-all.sh 쉘 스크립트를 생성한다. # 쉘 스크립트 편집mkdir ~/sbin && cd ~/sbinvim cluster-start-all.sh# master1 zookeeper runsudo /usr/local/zookeeper/bin/zkServer.sh start# master2 zookeeper runssh master2 "sudo /usr/local/zookeeper/bin/zkServer.sh start"# master3 zookeeper runssh master3 "sudo /usr/local/zookeeper/bin/z.. 2024. 6. 25.
728x90
반응형
LIST