본문 바로가기

728x90

SMALL

spark3

[Hadoop] 클러스터 실행 스크립트 생성 전체 시작 스크립트 master1 서버에서 작업한다. 지금까지 설정한 Hadoop, Yarn, Spark, Zookeeper를 모두 실행 시키는 cluster-start-all.sh 쉘 스크립트를 생성한다. # 쉘 스크립트 편집mkdir ~/sbin && cd ~/sbinvim cluster-start-all.sh# master1 zookeeper runsudo /usr/local/zookeeper/bin/zkServer.sh start# master2 zookeeper runssh master2 "sudo /usr/local/zookeeper/bin/zkServer.sh start"# master3 zookeeper runssh master3 "sudo /usr/local/zookeeper/bin/z.. 2024. 6. 25.

[Hadoop] 주키퍼 및 스파크 설정 주키퍼 설정 zoo.cfg 파일을 편집한다. cd /usr/local/zookeepercp ./conf/zoo_sample.cfg ./conf/zoo.cfg vim ./conf/zoo.cfgdataDir=/usr/local/zookeeper/datadataLogDir=/usr/local/zookeeper/logsmaxClientCnxns=0maxSessionTimeout=180000server.1=master1:2888:3888server.2=master2:2888:3888server.3=master3:2888:3888 myid을 설정한다. mkdir -p /usr/local/zookeeper/datamkdir -p /usr/local/zookeeper/logsvim /usr/local/zookeeper.. 2024. 6. 21.

[Spark] 스파크 클러스터 스파크 클러스터 실행 환경은 일반적으로 여러 시스템 (ex: 클러스터)에 분산된다. 실행을 위해 작업을 클러스터에 제출한다. Spark 자체는 Scala / Java로 작성되었다. 그러나 Python 인터페이스를 사용하면 데이터 과학 전문가가 이점을 누릴 수 있다. 배포 유형 자체 호스팅 클러스터 배포 (24시간 풀타임 엔지니어가 필요) 클라우드 솔루션 (ex: Google Cloud의 Cloud Dataproc 및 AWS의 EMR) 공급 업체 기반 배포 (ex: Databricks) 여기서 공급 업체는 GCP, AWS 및 Azure와 같은 IAAS 제공업체 위에 위치한다. 여러 데이터 과학 도구에 쉽게 액세스할 수 있다. Airflow 및 MLflow와 같은 워크플로 관리 도구와 통합된다. PySpar.. 2024. 1. 8.

이전 1 다음

728x90

LIST

티스토리툴바