본문 바로가기
Data-driven Methodology/Spark

[Spark] PySpark 설치

by goatlab 2024. 7. 15.
728x90
반응형
SMALL

리눅스

 

sudo apt-get update
sudo apt-get install net-tools

 

 

pyenv

 

sudo apt-get update; sudo apt-get install make build-essential libssl-dev zlib1g-dev \
libbz2-dev libreadline-dev libsqlite3-dev wget curl llvm \
libncursesw5-dev xz-utils tk-dev libxml2-dev libxmlsec1-dev libffi-dev liblzma-dev
curl https://pyenv.run | bash
export PYENV_ROOT="$HOME/.pyenv"
[[ -d $PYENV_ROOT/bin ]] && export PATH="$PYENV_ROOT/bin:$PATH"
eval "$(pyenv init -)"
eval "$(pyenv virtualenv-init -)"

 

환경 설정은 다음 명령어를 수행한다.

 

vim ~/.bashrc

 

에디터에서 맨 아래로 이동하여 다음을 추가한다.

 

export PYENV_ROOT="$HOME/.pyenv"
[[ -d $PYENV_ROOT/bin ]] && export PATH="$PYENV_ROOT/bin:$PATH"
eval "$(pyenv init -)"
eval "$(pyenv virtualenv-init -)"

 

다음 명령으로 쉘을 재시작한다.

 

exec $SHELL

 

다음 명령으로 pyenv 버전을 확인한다.

 

pyenv

 

가상 환경

 

다음 명령으로 가상 환경 생성을 위한 파이썬 3.11.9 버전을 설치한다.

 

pyenv install 3.11.9

 

다음 명령으로 py3_11_9 가상 환경을 생성한다.

 

pyenv virtualenv 3.11.9 py3_11_9

 

다음 명령으로 py3_11_9 가상 환경을 활성화한다.

 

pyenv activate py3_11_9

 

pip 명령으로 라이브러리 설치를 수행한다.

 

pip install numpy pandas pyarrow scikit-learn flask gunicorn psycopg2-binary

 

Java 환경

 

Apache Spark 파이썬 API인 Pyspark를 사용하기 위해 Java 설치가 필요하다.

 

sudo apt install openjdk-17-jre-headless

 

ls /usr/lib/jvm/
vim .bashrc

 

에디터에서 맨 아래로 이동한 후, 다음 코드를 추가한다.

 

export JAVA_HOME=/usr/lib/jvm/java-1.17.0-openjdk-amd64

 

쉘을 재시작한다.

 

source .bashrc
exec $SHELL

 

PySpark 설치

 

pyenv activate py3_11_9
pip install pyspark
728x90
반응형
LIST

'Data-driven Methodology > Spark' 카테고리의 다른 글

[Spark] Jupyter Lab  (0) 2024.07.15
[Spark] 데이터프레임 및 SQL  (0) 2024.07.15
[Spark] 스파크 클러스터  (0) 2024.01.08
Apache Spark  (0) 2024.01.08