[빅데이터]
2023. 4. 25.
[빅데이터] 적재1 - 대용량 로그 파일 적재
내/외부 원천 데이터 정리 내/외부 원천 데이터 정리 정형 데이터 데이터베이스 (관계/계층/객체/네트워크) 반정형 데이터 HTML, XML, JSON, 서버로그 비정형 데이터 소셜미디어, 문서, 이미지, 오디오, 비디오, loT 1. 빅데이터 적재에 활용하는 기술 * 하둡 하둡은 빅데이터의 핵심 소프트웨어이다. 하둡은 크게 두가지 기능이 있는데, 첫 번째가 대용량 데이터를 분산 저장하는 것이고, 두번째는 분산 저장된 데이터를 가공/분석 처리하는 기능이다. 하둡은 두번째 기능인 데이터 가공/분석을 위해 분산 병렬 처리 기술을 사용한다. 하둡의 맵리듀스 분산 병렬 처리에서의 핵심은 여러 컴퓨터에 분산 저장돼 있는 데이터로부터 어떻게 효율적으로 일을 나눠서(Map)실행 시킬 수 있느냐고, 여러 컴퓨터가 나눠서..