빅테이터 처리는 데이터로부터 유용한 정보를 발견하고, 정보를 분석하여 가설이나 규칙을 만들어, 의사결정을 지원한다. 이를 정리하면 데이터를 수집, 저장, 처리, 분석, 표현하는 전반적인 프로세스이다.
데이터 소스
파일, DB와 같은 내부 데이터 소스나 공공DB, SNS, IoT 센서와 같은 외부 데이터소스가 있다.
데이터 수집
정형화된 데이터로 RDB, CSV 파일 등이 있다.
반정형 데이터로 JSON, RSS, XML, 웹 로그, HTML, 센서 데이터 등이 있다.
비정형 데이터로 이진파일, 이미지, 텍스트, 동영상 등이 있다.
데이터 저장
수집한 데이터의 형식에 따라 파일시스템 RDBMS, NoSQL DB의 데이터베이스 형식로 저장할 수 있다.
데이터 처리
배치처리, 실시간 처리, 분산병렬 처리 방식이 있다.
데이터 분석
통계 분석, 데이터 마이닝, 텍스터 마이닝, 머신러닝 등의 분석법이 있다.
데이터 표현
시간, 분포, 관계, 비교, 공간에 따락 데이터를 시각화할 수 있다.