1-1 [배경] 빅데이터의 정착
- 하둡(Hadoop) : 다수의 컴퓨터에서 대량의 데이터를 처리하기 위한 시스템
SQL과 같은 쿼리 언어를 하둡에서 처리하기 위한 소프트웨어로 하이브(Hive)가 개발되었다.
- 데이터 웨어 하우스 : 데이터 분석을 기반으로 하는 분산 시스템 구축
EX] 업무 시스템 -> RDB -> Hadoop -> 데이터 웨어 하우스
의 과정을 통해 데이터 웨어하우스의 부하를 줄인다.
1-2 빅데이터 시대의 데이터 분석 기반
- 데이터 파이프 라인 : 일반적으로 차례대로 전달해나가는 데이터로 구성된 시스템
데이터 전송
- 벌크형 : 이미 존재하는 데이터를 정리해 추출하는 방법, 정기적으로 데이터를 수집하는데 사용한다.
- 스트리밍형 : 차례대로 생성되는 데이터를 끊임없이 계속 보내는 방법, 모바일 애플리케이션과 임베디드 장비에서 주로 사용한다.
기존, 데이터 웨어하우스에서 다루는 데이터는 주로 벌크형을 사용,
빅데이터 세계에서는 스트리밍 방법을 주로 사용한다.
- 스트림 처리 : 스트리밍 형으로 받은 데이터를 처리할 때 사용한다. 또, 분석을 위한 그래프를 만들 때 시계열 데이터 베이스의 데이터베이스가 주로 사용된다.
- 배치 처리 : 장기적인 데이터 분석을 위해 대량의 데이터를 저장하고, 처리하는데 사용하는 분산 시스템에서 필요한 처리, 어느정도 정리된 데이터를 효율적으로 가공하기 위한 처리 구조이다.
분산 데이터 처리
- 쿼리 엔진 : 분산 스토리지 상의 데이터를 SQL로 집계하기 위한 엔진. 한 예로 Hive가 있다.
- ETL 프로세스 : 분산 스토리지에서 추출한 데이터를 데이터 웨어하우스에 적합한 형식으로 변환한 것. 즉, 데이터를 추출(extract)하고 이를 가공(transform)한 후 데이터 웨어하우스에 로드(load)한다.
- 워크플로 관리 : 매일 정해진 시간에 배치 처리를 스케쥴대로 실행하고, 오류가 발생한 경우에는 관리자에게 통지하는 목적으로 사용
데이터 웨어하우스와 데이터 마트
- 데이터 웨어하우스 : 대량의 데이터를 장기 보전하는 것에 최적화.
-> 데이터 소스(로그, RDB를 저장하는 파일 서버)에 보존된 로우 데이터를 가공하고 데이터 웨어하우스에 저장하는 흐름이 ETL 프로세스이다. - 데이터 마트 : 데이터 분석과 같은 목적에 사용하기 위해 데이터 웨어하우스에서 필요한 데이터만을 추출하여 구출하는 것,
- 데이터 레이크 : 데이터를 축적하는 장소, 이것 만으로 데이터를 가공할 수 없다.
-> 데이터 소스가 보존 -> 데이터 레이크 -> 데이터 마트(데이터 레이크에서 가공됨)
데이터 파이프라인의 주목적
- 저장할 수 있는 데이터 용량의 제한이 없을 것(계속적으로 이용)
- 데이터를 효율적으로 추출할 수단이 있을 것
데이터를 수집하는 목적
- 데이터 검색 : 대량의 데이터 중에서 조건에 맞는 것을 찾고 싶은 경우
- 데이터 가공 : 필요한 데이터를 계획적으로 모아 데이터 파이프라인을 설계한다. 자동화가 필수
- 데이터 시각화 : 미래의 상황을 예측해 의사 결정에 도움이 되도록 하는 경우.
통계 분석 소프트웨어나 BI도구를 이용해 그래프 만든다.
1-4 BI 도구와 모니터링
- 애드 훅 분석 : 데이터를 살펴보고 싶을 때 이용
- 모니터링 : 계획적으로 데이터의 변화를 추적해 나가는 것
정기적인 일정으로 동일한 집계를 반복하여 그 추이를 관측하다 보면 무슨일이 일어나는지 알 수 있다. - 데이터 기반 의사 결정 : 행동을 결정할 때 객관적인 데이터를 근거하여 판단한다.
BI도구는 고속의 집계 엔진을 내장하고 있어, 스몰데이터(수백만 레코드 정도)라면 빠르게 그래프를 그려줌
또, BI도구는 자신이 직접 데이터를 살펴보기 위해서 필요하다.
자동화하려는 경우에는 데이터 마트를 만들어야 한다.
- 데이터 마트를 준비하고, 그것을 BI 도구로부터 열기
- 장점 : 어떤 테이블이라도 자유롭게 만들 수 있다.
- 단점 : 데이터 마트의 설치 및 운영에 시간이 걸린다.
'Today I Learned > 빅데이터를 지탱하는 기술' 카테고리의 다른 글
220604 TIL : 빅데이터를 지탱하는 기술 CH3 (0) | 2022.06.20 |
---|---|
220603 TIL : 빅데이터를 지탱하는 기술 CH2 (0) | 2022.06.04 |