본문 바로가기

[빅데이터]

[빅데이터] 탐색

빅데이터 탐색 개요

탐색 영역은 적재된 데이터를 가공하고 이해하는 단계

데이터 이해 => 데이터들의 패턴, 관계, 트랜드 찾기 => 탐색적 분석(EDA:Exploratory Data Analysis)

ex) 비정형 데이터를 정교한 후처리 작업 => 정형화 데이터

 

데이터 웨어하우스(DW: Data Warehouse)

정형화한 저장소 - 데이터베이스

 

데이터 마트 (Data Mart)

데이터웨어하우스로부터 특정 주제, 부서 중심으로 구축된 소규모 단일 주제의 DW

 

 

 

빅데이터 탐색에 활용할 기술

하둡 초창기에는 탐색/분석 도구로 맵리듀스를 주로 이용했지만 접근성을 높인 기술들이 늘어남

* 하이브

하둡 기반 적재된 데이터/탐색 도구

SQL과 매우 유사한 방식으로 하둡 데이터에 접근

하이브 QL을 작성하면 쿼리엔진에 있는 SQL 파서가 QL을 맵리듀스 프로그램으로 변환하고, 이 맵리듀스 프로그램이

하둡 클러스터에 전송되어 여러 데이터 노드에서 분산 실행된다.

 

- 특징

1. 하이브 쿼리는 맵리듀스로 변환되어 실행

2. 대화형 온라인 쿼리 사용에 부적합

3. 데이터의 부분적인 수정 불가

4. 대규모 병렬분산 처리가 불가능한 경우가 있다.

5. 트랙잭션 관리 기능이 없어 롤백 처리 불가

* 스파크

대화형 연산 작업에서는 하이브가 적합하지 않기 때문에 스파크 등장

스파크의 가장 큰 특징은 고성능 인메모리 분석이고 다야한 클라이언트 프로그래밍 언어(파이썬, 자바, 스칼라 등)를 지원하고, SQL을 이용해 데이터에 엑세스할 수도 있다. 또한, 스파크 엔진은 대규모 분산 노드에서 최적의 성능을 낼 수 있는데, 스파크의 분산 노드로 아파치 메소드, 하둡 얀을 이용한다. 

 

하이브와 스파크로 데이터 탐색을 해본 결과 스파크

 

* 우지

빅데이터 처리, 탐색, 분석 과정은 선후행 관계를 맺고 반복적으로 진행

이러한 수백 가지 이상의 잡(Job)이 데이터 간의 의존성을 지켜가며 복잡한 구조가 생성

우지는 데이터 파이프라인 작업을 위해 방향성 있는 비순환 그래프로 액션을 정의하는 워크프로

 

* 휴

휴에서는 HDFS, HBase, 하이브, 임팔라를 편리하게 사용하기 위한 웹 에디터를 제공한다. 

 

 

 

빅데이터 분석을 위한 탐색 및 전처리 작업

일반적으로 빅데이터 인사이트는 탐색 단계에서 80% 이상이 발견되고, 나머지 20%는 분석 단계에서 검증하며 얻게 된다. 

특히 데이터의 전처리 작업 비중이 매우 높다.