본문 바로가기

[빅데이터]

[빅데이터] 수집

빅데이터 수집에 활용되는 기술

 

* 플럼

플럼은 빅데이터를 수집할 때 다양한 수집 요구사항들을 해결하기 위한 기능으로 구성된 소프트웨어

 

플럼 아키텍처

플럼 매커니즘은 Source, Channel, Sink만을 활용하는 매우 단순하면서 직관적인 구조를 가짐

플럼의 Source에서 데이터를 로드하고, Channel에서 데이터를 임시 저장해 놓았다가, Sink를 통해 목적지에 데이터를 최정 적재한다.

 

플럼 활용 방안

내 프로젝트에서는 플럼은 스마트카에서 발생하는 로그를 직접 수집하는 역할을 담당할 것임

1. 스마트카에 대한 상태 정보 로그 파일이 로그 시뮬레이터를 통해 매일 생성되고, 이러한 상태 정보 파일을 플럼 에이전트가 일 단위로 수집해서 하둡에 적재하고 향후 대규모 배치 분석에 활용

2. 스마트카 운전자의 운행 정보를 실시간으로 기록하는 로그 파일이 로그 시뮬레이터에 의해 만들어지는데, 이때 발생과 동시에 에이전트가 수집해서 카프카에 전송

 

* 카프카

카프카는 MOM 소프트웨어 중 하나로서 대규모로 발생하는 메시지성 데이터를 비동기 방식으로 중계하는 역할을 한다.

 

카프카 아키텍처

카프카는 클러스터 방식에 따라 세가지 아키텍처 구성이 가능하며, 이때 주키퍼를 반드시 이용

 

카프카 활용 방안

내 프로젝트에서는 플럼이 실시간 데이터를 수집해 카프카 토픽에 전송하면 카프카는 전송받은 데이터를 토픽에 임시로 저장하고 있다가 컨슈머 프로그램이 작동해 토픽에서 데이터를 가져간다.

 

활용 목적은

플럼이 아주 빠르게 발생하는 데이터를 실시간으로 수집하게 되면 이를 최종 목적지에 전달하기 전 중간에서 안정적인 버퍼링 처리가 필요해서이다. 카프카와 같은 분산 환경의 대규모 중간 저장소가 완충 역할을 함으로써 안정적인 수집 아키텍처를 구성할 수 있다.