Hadoop 클러스터 동작방식

클러스터 환경인 Hadoop의 클러스터는 세가지 동작 방식이 있다.

독립모드(Standalone Mode)

데몬 프로세스 없이 모든 프로그램이 하나의 JVM(Java Virtual Machine) 위에서 동작하는 모드이다.

일반적으로 Map Reduce 프로그램을 동작시키고 테스트를 하며 사용된다. 분산운영 모드가 아니므로 실제 빅데이터 처리 환경으로는 부적합하다.

HDFS(Hadoop Distriuted File System; 대용량 파일을 분산된 서버에 저장하고, 저장된 데이터를 빠르게 처리할 수 있게 하는 파일시스템)를 사용하지 않고, 로컬 파일 시스템을 사용한다.

의사 분산 모드(Pseudo-Distributed Mode)

하나의 노드에 하둡 데몬프로세스가 여러 개 분리되어 동작하는 모드이다. 하나의 JVM위에서 여러개의 Java Daemon Process가 실행되어 하둡을 동작시킨다.

작은 규모의 클러스터를 테스트, 디버깅, 프로토타이핑 하는 경우에 주로 사용된다. 한대의 컴퓨터를 사용하여 가상 분산 운영 모드로 사용된다.

독립모드와는 달리 HDFS를 사용한다.

완전분산모드(Fully-Distributed Mode)

하둡 데몬 프로세스가 클러스터로 구성된 여러개의 컴퓨터에 나누어 동작하는 모드이다.

데이터들은 작업노드들 내의 데이터 노드에 분산저장되며, 이들에 대한 메타정보는 마스터노드들 내의 네임노드에서 관리한다.