Java를 이용한 MapReduce 작업은 강력하지만 언어와 Hadoop 구조에 대해 높은 이해도가 필요하다. Pig는 Pig Latin 스크립트 언어를 통해 MapReduce 작업의 개발 생산성을 높일 수 있도록 돕는다.
Pig Latin 스크립트 언어를 통해 MapReduce에 데이터를 전송하여 다음과 같은 데이터 처리 작업을 수행할 수 있다.
1.
대규모 데이터 세트에서 샘플용 데이터 추출
2.
ETL 작업 수행
3.
데이터의 위치를 탐색하는 데이터 흐름 언어와 실행환경(step-by-step)
4.
Pig Latin이라는 데이터 세트 플로우 제어 언어 사용
5.
내부 인터프리터에 의해 맵리듀스 작업으로 변환 수행
DUMP 명령어로 MapReduce결과를 화면에 출력할 수 있으며, STORE 명령어로 결과를 파일로 저장할 수 있다.