Hadoop-Spark Cluster

Spark Application이 작동하기 위해선 Driver, Executer 모두 접근이 가능한 파일시스템이 필요하다. 많은 경우 Hadoop과 같이 동작시켜 HDFS를 이용한다. Spark Application을 Standalone 환경이 아닌 Cluster 환경에서 실행시키기 위해 클러스터 자원관리매니져로 YARN을 사용한다.

클러스터 환경에서 Spark Application을 실행하기 위해 필요한 기본적인 구성을 진행한다.

Hadoop, YARN을 위한 다운로드 및 구성은 다음과 같이 진행한다.

Tarball 다운로드(Hadoop 3.3.4)

hadoop-env.sh 설정(JAVA_HOME)

core-site.xml 설정(fs.defaultFS)

hdfs-site.xml 설정(namenode, datanode checkpoint directory)

yarn-site.xml 설정(redourcemanager hostname)

workers 설정(master, slave)

Spark를 위한 다운로드 및 구성은 다음과 같이 진행한다.

Spark 3.3.1