본문 바로가기
Data Engineering/최신 데이터 인프라 이해하기

[최신 데이터 인프라 이해하기] #1 - 기본 개념과 단어 설명

by 남르미누 2022. 1. 28.

[최신 데이터 인프라 이해하기] #1 - 기본 개념과 단어 설명(데이터 인프라의 목적, 데이터 웨어하우스, ETL과 ELT, 데이터 엔지니어 vs 애널리스트 vs 사이언티스트)


* 데이터 인프라의 목적

1. 비즈니스 리더들의 의사결정을 도와주기

Analytic Systems : Make data-driven decisions

2. 서비스/제품을 데이터의 도움을 받아 향상시키기

Operational Systems : Build data-powered products

 

* 데이터 인프라 기초

1. Production Systems : 데이터가 만들어지는 것들

(ex) ERP(NETSUITE), CRM(salesforce), Database(MySQL, PostgreSQL, Oracle)

>> 시스템별로 분석

>> 각각의 시스템 분석도구로 분석을 하다보니 불편해짐

>> 데이터 웨어하우스가 나오게 된 배경

2. Data Warehouse : 통합된 분석 보고서 작성을 위해 다양한 소스로부터 데이터를 저장

 

* 데이터의 차이

1. Production Systems

>> 정규화된 스키마(Normalized Schema) : many small tables

>> 작은 테이블로 각각 쪼개서 사용하다 보니 불편함

2. Data Warehouse

>> 디멘져널 스키마(스타 스키마) (Dimensional Schema(Star Schema)) : fewer, simpler tables

>> 팩트 테이블 가운데에 위치, 옆으로 디멘져널 테이블 위치

데이터의 차이 : 정규화된 스키마 vs 디멘져널 스키마(스타 스키마)


* ETL (Extract, Transform, Load : 추출, 변환, 적재)

데이터를 프로덕션 시스템으로부터 추출

그 데이터를 디멘져널 스키마로 변환

변환한 데이터를 데이터 웨어하우스에 적재

 

ETL 문제점

>> 추출과 변환이 자동화될 수 없다.

>> 변환하는게 회사마다 다르다.

 

그래서 나온게 ELT이다.

 

* ELT (Extract, Load, Transform : 추출, 적재, 변환)

데이터를 프로덕션 시스템으로부터 추출

추출한 데이터를 데이터 웨어하우스에 적재

적재한 뒤에 그 안에서 변환을 따로 진행


* Data Analyst vs Data Engineer vs Data Scientist 비교

데이터 분석가

>> 데이터 인프라 위에서 데이터를 해석해서 비즈니스 의사결정을 돕는 정보로 만드는 사람

>> 요구기술 : 통계학, 수학, 커뮤니케이션, 스프레드시트 & DB 사용, BI툴을 이용한 시각화

>> 주 사용 언어 : SQL, R, Python 약간

 

데이터 엔지니어

>> 빅데이터를 처리할 수 있는 인프라 & 아키텍처를 만드는 사람

>> 경력이 쌓이면 데이터 아키텍쳐라고도 부른다.

>> 요구기술 : 프로그래밍, 수학, 빅데이터, 다양한 데이터베이스 지식, ETL 및 BI(Business Intelligence) 도구들에 대한 지식

>> 주 사용 언어 : Python, SQL, 쉘스크립트

 

데이터 사이언티스트

>> 수학자 + 과학자 + 도메인전문가

>> 큰 데이터도 잘 다루고, 복잡한 문제를 해결하는 사람

>> 요구기술 : 수학, 통계학, 머신러닝, 딥러닝, 분산컴퓨팅, 데이터모델링, 스토리텔링, 시각화, 도메인지식, 커뮤니케이션

>> 주 사용 언어 : SQL, Python, R


[ 데이터 인프라 전체 흐름 ]

Sources : 데이터 만들어지는 곳

Ingestion and Transformation : 저장소

Storage : 데이터 웨어하우스, 데이터 레이크

Historical : 적재된 데이터를 가지고 예전 데이터를 분석

Predictive : 적재된 데이터를 가지고 미래를 예측

Output : 분석된 결과를 보여주기

위 강의를 들으면 여기서 나오는 단어들을 모두 이해할 수 있을 것이다~!~!~!

 

빠이팅 '-'


참고자료 URL - 최신 데이터 인프라를 위한 새로운 아키텍처

https://future.a16z.com/emerging-architectures-modern-data-infrastructure/

 

The Emerging Architectures for Modern Data Infrastructure

Five years ago, if you were building a system, it was a result of the code you wrote. Now, it’s built around the data that is fed into that system. And a new class of tools and technologies have emerged to process data for both analytics and operational

future.a16z.com

 

댓글