Hadoop Ecosystem 클러스터 자체 구축

상태

완료

시기

2022/04/09 → 2022/06/04

역할

기획

BigData

Deployment

참여인원

소속

개인

사용 기술

hadoop-ecosystem.git

gegurakzi

프로젝트 결과

5개의 Docker 컨테이너를 통해 분산 클러스터를 구성

만들어진 데이터 플랫폼을 개선하여 추후 프로젝트에서 사용

웹 기반 고객 Behavior Flow 분석 대시보드 서비스 기획 및 개발

프로젝트의 목적

Hadoop Ecosystem을 직접 구축하며 Spark, Airflow, Kafka 와 같은 데이터 툴들의 컨셉과 사용법을 익힌다.

프로젝트 계획

Hadoop의 컨셉을 학습한다.

Hadoop 기반의 분산 클러스터를 구성한다.

데이터 처리, 변환, 저장에 사용되는 각종 툴의 컨셉을 학습하고 클러스터 내에 직접 구성한다.

프로젝트 진행

1. 빅데이터의 이해

Apache Hadoop Ecosystem

MapReduce

HDFS

2. Hadoop 분산 클러스터 구성

Hadoop Standalone with Docker

Hadoop Pseudo-distributed with Docker

Hadoop Fully-distributed with Docker

컨테이너 간 SSH 키 공유

Hadoop High-Availability Fully distributed with Docker

Docker Compose

Hadoop 클러스터 구축 과정

3. Hadoop 외의 툴 개요

Apache Pig

Apache Hive

Hive Metastore

Hive 테이블

Apache Spark

In-memory 데이터 처리 기반 S/W

Apache Airflow