데이터 파이프라인 구조
하나의 데이터 처리 단계의 출력이 다음 단계의 입력으로 이어지는 형태로 연결된 구조이다. UNIX의 pipeline 명령을 이 파이프라인 구조의 예시로 들 수 있다.
데이터 파이프라인이란 다양한 소스에서 데이터를 변환하고 옮기는 일련의 과정을 구성한 시스템이다. 데이터 원천(Source)으로부터 가져온 데이터를 필요한 형태로 가공(Processing)하여 데이터 저장소 혹은 소비자와 같은 목적지(Destination)로 보내는 구조이다.
데이터 파이프라인의 필요성
많은 기업들이 고객의 데이터를 기반으로 의사결정을 내리게 된 데에는 마케팅의 트렌드를 따른다. Perfomance 마케팅의 대유행 이후 자리매김하게 된 CRM(Customer Relationship Marketing) 마케팅은 강한 고객-기업관계를 맺음으로써 여러번의 재구매를 발생시키는 충성고객으로의 전환을 기대하는 마케팅 전략이다. 고객의 LTV를 예측하기 위해선 서비스를 이용하는 고객의 경험 데이터가 더욱 많이 필요하게 되었고, 이벤트 데이터 파이프라인 구축을 통해 비즈니스 데이터 분석의 자동화를 꿈꿀 수 있게 되었다.
기술적 동향 또한 데이터 기반 의사결정에 많은 영향을 끼쳤다. NLP, CV 딥러닝과 같은 머신러닝 기술의 급격한 발전에 따라 더욱 첨예하고 정확한 의사결정을 내릴 수 있게 되었고, 잘 만들어진 데이터 파이프라인의 중요성은 더욱 커지게 되었다.
데이터 파이프라인은 데이터 팀에 속한 데이터 엔지니어가 구축하게 된다. 데이터 분석가는 데이터 파이프라인을 통해 적재된 데이터를 리포트 자료로 도출하거나 대시보드로 알맞게 시각화 한다. 데이터 사이언티스트는 적재된 데이터를 통해 머신러닝 애플리케이션을 학습시키고 모델을 최적화 한다.
데이터 파이프라인의 예시
빅데이터 아키텍쳐에서 다양한 데이터 파이프라인을 구축하는 예시를 몇가지 알아보자.
예시 1. 간단한 데이터 수집형 파이프라인
1.
Data source로부터 데이터를 수집
2.
수집한 데이터를 Data Warehouse에 보관
3.
보관된 데이터를 BI 도구로 시각
예시 2. 데이터 분석형 파이프라인
1.
Data source로부터 주기적인 Batch processing 실행
2.
Data lake에 수집된 Batch 데이터를 저장
3.
Query engine을 사용하여 데이터 분석 진행
4.
분석 완료 후 BI 도구로 시각