프로젝트 결과
5개의 Docker 컨테이너를 통해 분산 클러스터를 구성
만들어진 데이터 플랫폼을 개선하여 추후 프로젝트에서 사용
프로젝트의 목적
Hadoop Ecosystem을 직접 구축하며 Spark, Airflow, Kafka 와 같은 데이터 툴들의 컨셉과 사용법을 익힌다.
프로젝트 계획
1.
Hadoop의 컨셉을 학습한다.
2.
Hadoop 기반의 분산 클러스터를 구성한다.
3.
데이터 처리, 변환, 저장에 사용되는 각종 툴의 컨셉을 학습하고 클러스터 내에 직접 구성한다.
프로젝트 진행
1. 빅데이터의 이해
2. Hadoop 분산 클러스터 구성
3. Hadoop 외의 툴 개요
Apache Pig
Apache Hive
Apache Spark
Apache Airflow