빅데이터를 지탱하는 기술

    220604 TIL : 빅데이터를 지탱하는 기술 CH3

    3-1 구조화 데이터와 비구조화 데이터 스키마 : 테이블의 칼럼 명과 데이터형, 테이블 간의 관계 구조화된 데이터 : 스키마가 명확하게 정의된 데이터 비구조화 데이터 : 자연 언어로 작성된 텍스트 데이터, 이미지, 동영상 등의 미디어 데이터, SQL로 제대로 집계할 수 없다. 데이터 레이크 : 비구조화 데이터를 분산 스토리지 등에 저장하고 이것을 분산 시스템에서 처리한다 스키마리스 데이터 : 서식은 정해져 있지만, 칼럼 수나 데이터형은 명확하지 않은 데이터 CSV, JSON, XML 등의 예가 있다. 데이터 구조화의 파이프 라인 : 데이터 소스 -> 비구조화 데이터/스키마리스 데이터 -> 구조화 데이터 구조화 데이터는 항상 열 지향 스토리지에 보관한다. 팩트 테이블 : 시간에 따라 증가하는 데이터 디멘전..

    220603 TIL : 빅데이터를 지탱하는 기술 CH2

    2-1 크로스 집계의 기본 크로스 테이블 : 행과 열이 교차하는 부분에 숫자 데이터가 들어가는 테이블, 예로 엑셀 등의 스프레드시트가 있다. 1월 1일 1월 2일 1월 3일 1월 4일 1월 5일 상품 A 4개 5 6 7 7 상품 B 3개 3 4 4 4 트랜잭션 테이블 : 행 방향으로만 데이터가 증가하고, 열 방향으로는 데이터라 증가하지 않는다. 날짜 상품명 개수 1월 1일 A 4 1월 2일 B 3 크로스 집계 : 트랜잭션 테이블에서 크로스 테이블로 변환하는 과정. 피벗 테이블 : 소량의 데이터를 크로스 집계하는데 편리한 것이 스프레드 시트의 피벗 테이블 스크립트로 크로스 집계를 실행하고자 한다면, pandas를 이용해서 두 개의 테이블을 결합하려면 merge()를 실행한다. 데이터를 집계해서 시각화 하는..

    220602 TIL : 빅데이터를 지탱하는 기술 CH1

    1-1 [배경] 빅데이터의 정착 하둡(Hadoop) : 다수의 컴퓨터에서 대량의 데이터를 처리하기 위한 시스템 SQL과 같은 쿼리 언어를 하둡에서 처리하기 위한 소프트웨어로 하이브(Hive)가 개발되었다. 데이터 웨어 하우스 : 데이터 분석을 기반으로 하는 분산 시스템 구축 EX] 업무 시스템 -> RDB -> Hadoop -> 데이터 웨어 하우스 의 과정을 통해 데이터 웨어하우스의 부하를 줄인다. 1-2 빅데이터 시대의 데이터 분석 기반 데이터 파이프 라인 : 일반적으로 차례대로 전달해나가는 데이터로 구성된 시스템 데이터 전송 벌크형 : 이미 존재하는 데이터를 정리해 추출하는 방법, 정기적으로 데이터를 수집하는데 사용한다. 스트리밍형 : 차례대로 생성되는 데이터를 끊임없이 계속 보내는 방법, 모바일 애..