Flume
플럼(Flume)은 외부 데이터 소스들로부터 데이터를 수집할 수 있는 도구이다.
외부 데이터 소스에 설치되는 에이전트인 소스(Source), 데이터 목적지에 설치되는 에이전트인 싱크(Sink), 소스와 싱크 간에 데이터를 받는 통로인 채널(Channel)로 구성된다.
Sqoop
스쿱(Sqoop)은 RDBMS와 HDFS간의 효율적인 대용량 bulk 데이터 전송을 지원해주는 도구이다.
v2에서는 사라진 기능이지만, Sqoop v1에서는 외부 RDBMS의 데이터를 HDFS로 가져올 뿐만 아니라, 하둡의 다양한 파일 형태(하이브 테이블, Hbase 테이블 등)로 저장이 가능하도록 지원해준다.
RDBMS에 접속할 땐 JDBC를 사용하기 떄문에SQL 서버, PostgreSQL, MySQL, Oracle 등 JDBC와 호환되는 모든 RDBMS에 사용이 가능하다.