728x90 반응형 SMALL Data-driven Methodology98 [Spark] Jupyter Lab 디렉토리 설정 cd work/mkdir jupytercd jupyter/ 주피터 랩 설치 및 환경 설정 pyenv activate py3_11_9pip install jupyterlabjupyter lab --generate-config 처음 디렉토리로 이동하여 다음 명령을 실행한다. cd .jupyter/vim jupyter_lab_config.py 에디터에서 다음 코드를 c 객체 밑에 추가한다. c.NotebookApp.ip = '0.0.0.0' # 모든 네트워크 요청 수신c.NotebookApp.open_browser = False # 자동으로 웹 브라우저를 열지 않음c.NotebookApp.port = 8888 # 주피터 랩 서버가 사용할 포트 번호c.Noteboo.. 2024. 7. 15. [Spark] 데이터프레임 및 SQL 디렉토리 설정 mkdir workcd workmkdir sparkcd spark Pandas로 CSV 읽기 pyenv activate py3_11_9pythonimport pandas as pdurl = 'https://raw.githubusercontent.com/losskatsu/data-example/main/data/iris.csv'df = pd.read_csv(url)df.head(3) CSV 추출 및 parquet 변환 df.to_parquet('/home/ubuntu/work/spark/iris.parquet', index=False)df.to_csv('/home/ubuntu/work/spark/iris.csv', index=False)quit() SQL pyspark.sql은 데이터프레임과.. 2024. 7. 15. [Spark] PySpark 설치 리눅스 sudo apt-get updatesudo apt-get install net-tools pyenv sudo apt-get update; sudo apt-get install make build-essential libssl-dev zlib1g-dev \libbz2-dev libreadline-dev libsqlite3-dev wget curl llvm \libncursesw5-dev xz-utils tk-dev libxml2-dev libxmlsec1-dev libffi-dev liblzma-devcurl https://pyenv.run | bashexport PYENV_ROOT="$HOME/.pyenv"[[ -d $PYENV_ROOT/bin ]] && export PATH="$PYENV_RO.. 2024. 7. 15. [Hadoop] 클러스터 실행 스크립트 생성 전체 시작 스크립트 master1 서버에서 작업한다. 지금까지 설정한 Hadoop, Yarn, Spark, Zookeeper를 모두 실행 시키는 cluster-start-all.sh 쉘 스크립트를 생성한다. # 쉘 스크립트 편집mkdir ~/sbin && cd ~/sbinvim cluster-start-all.sh# master1 zookeeper runsudo /usr/local/zookeeper/bin/zkServer.sh start# master2 zookeeper runssh master2 "sudo /usr/local/zookeeper/bin/zkServer.sh start"# master3 zookeeper runssh master3 "sudo /usr/local/zookeeper/bin/z.. 2024. 6. 25. [Hadoop] Hadoop 및 Yarn 클러스터 JournalNode 주키퍼 앙상블 구성이 끝났으므로 저널 노드를 실행할 수 있다. master1, master2, master3에서 각각 실행한다. # master1에서 실행hdfs --daemon start journalnode# master2에서 실행ssh master2hdfs --daemon start journalnodeexit# master3에서 실행ssh master3hdfs --daemon start journalnodeexit# master1의 journalnode 로그 확인cd /usr/local/hadoop/logsvim hadoop-ubuntu-journalnode-master1.log Namenode 하둡 클러스터를 실행하기 전에 네임노드 포맷을 해야한다. master1에서 한번만.. 2024. 6. 24. [Hadoop] Zookeeper 클러스터 Zookeeper 클러스터 설정 Zookeeper 클러스터 설정을 위해 myid 파일울 편집한다. master1, master2, master3 서버에서 myid를 각각 1, 2, 3으로 하고 master1 서버는 이미 지정했기 때문에 master2, master3에서 작업한다. # master2 서버로 이동$ ssh master2$ vim /usr/local/zookeeper/data/myid# 아래 내용으로 수정 후 저장2# master1 으로 이동$ exit# master3 서버로 이동$ ssh master3$ vim /usr/local/zookeeper/data/myid# 아래 내용으로 수정 후 저장3# master1 으로 이동$ exit Zookeeper 클러스터 실행 master1, maste.. 2024. 6. 24. [Hadoop] SSH 및 호스트 이름 설정 로컬 PC SSH 설정 배포된 6개의 인스턴스끼리 SSH 통신이 가능하도록 설정하고 각 서버의 호스트 이름을 설정한다. # config 편집vim ~/.ssh/configHost master1 HostName 100.100.100.101 User ubuntu IdentityFile ~/hadoop-keypair.pemHost master2 HostName 100.100.100.102 User ubuntu IdentityFile ~/hadoop-keypair.pemHost master3 HostName 100.100.100.103 User ubuntu IdentityFile ~/hadoop-ke.. 2024. 6. 21. [Hadoop] AMI 생성 및 인스턴스 복제 AMI 설정 앞서 설정한 인스턴스를 AMI로 생성하고 클러스터에 필요한만큼 인스턴스를 복제한다. 인스턴스 대시보드에서 master1 인스턴스를 선택하고 화면 우측 상단의 Actions (작업)을 클릭 후 Image and templates (이미지 및 템플릿)에서 이미지 생성을 클릭한다. 이미지 이름을 hadoop-eco-base라고 지정하고 화면 하단의 Create image을 클릭하여 AMI를 생성한다. 대시보드 화면 좌측 이미지 메뉴의 AMI를 클릭하여 AMI 대시보드를 확인한다. 그리고 시간이 지난 후 hadoop-eco-base의 상태가 사용 가능으로 변경되면 AMI로 인스턴스 시작을 클릭한다. Instance type (인스턴스 유형)은 이미지를 생성했던 t3.large를 선택한다. Ne.. 2024. 6. 21. [Hadoop] 플럼 및 하이브 설정 플럼 설정 flume-env.sh 파일을 설정한다. cd /usr/local/flume/confcp flume-env.sh.template flume-env.shvim flume-env.shexport JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64export JAVA_OPTS="-Xms100m -Xmx2000m -Dcom.sun.management.jmxremote" log4j2.xml 파일을 설정한다. vim log4j2.xml /usr/local/flume/logs 그 다음, 로그 디렉토리을 생성한다. mkdir -p /usr/local/flume/logs 하이브 설정 hive-env.sh 파일을 편집한다. cd $HIVE_HOME/confcp hive-e.. 2024. 6. 21. [Hadoop] 카프카 및 제플린 설정 카프카 설정 Kafka server.properties을 설정한다. cd $KAFKA_HOME/configvim server.properties# 아래 내용 수정broker.id=1# 아래 내용 수정 후 저장listeners=PLAINTEXT://:9092advertised.listeners=PLAINTEXT://slave1:9092# znode root 디렉토리 하위에 클러스터를 구성하기 위함log.dirs=/usr/local/kafka/logs# 로그 리텐션 주기를 기본값 168시간을 주석처리# log.retention.hours=168# 로그 리텐션 주기를 10분으로 짧게 설정log.retention.minutes=10# 변경 필요zookeeper.connect=master1:2181,master.. 2024. 6. 21. 이전 1 2 3 4 ··· 10 다음 728x90 반응형 LIST