[최신 데이터 인프라 이해하기] #1 - 기본 개념과 단어 설명(데이터 인프라의 목적, 데이터 웨어하우스, ETL과 ELT, 데이터 엔지니어 vs 애널리스트 vs 사이언티스트)
* 데이터 인프라의 목적
1. 비즈니스 리더들의 의사결정을 도와주기
Analytic Systems : Make data-driven decisions
2. 서비스/제품을 데이터의 도움을 받아 향상시키기
Operational Systems : Build data-powered products
* 데이터 인프라 기초
1. Production Systems : 데이터가 만들어지는 것들
(ex) ERP(NETSUITE), CRM(salesforce), Database(MySQL, PostgreSQL, Oracle)
>> 시스템별로 분석
>> 각각의 시스템 분석도구로 분석을 하다보니 불편해짐
>> 데이터 웨어하우스가 나오게 된 배경
2. Data Warehouse : 통합된 분석 보고서 작성을 위해 다양한 소스로부터 데이터를 저장
* 데이터의 차이
1. Production Systems
>> 정규화된 스키마(Normalized Schema) : many small tables
>> 작은 테이블로 각각 쪼개서 사용하다 보니 불편함
2. Data Warehouse
>> 디멘져널 스키마(스타 스키마) (Dimensional Schema(Star Schema)) : fewer, simpler tables
>> 팩트 테이블 가운데에 위치, 옆으로 디멘져널 테이블 위치
* ETL (Extract, Transform, Load : 추출, 변환, 적재)
데이터를 프로덕션 시스템으로부터 추출
그 데이터를 디멘져널 스키마로 변환
변환한 데이터를 데이터 웨어하우스에 적재
ETL 문제점
>> 추출과 변환이 자동화될 수 없다.
>> 변환하는게 회사마다 다르다.
그래서 나온게 ELT이다.
* ELT (Extract, Load, Transform : 추출, 적재, 변환)
데이터를 프로덕션 시스템으로부터 추출
추출한 데이터를 데이터 웨어하우스에 적재
적재한 뒤에 그 안에서 변환을 따로 진행
* Data Analyst vs Data Engineer vs Data Scientist 비교
데이터 분석가
>> 데이터 인프라 위에서 데이터를 해석해서 비즈니스 의사결정을 돕는 정보로 만드는 사람
>> 요구기술 : 통계학, 수학, 커뮤니케이션, 스프레드시트 & DB 사용, BI툴을 이용한 시각화
>> 주 사용 언어 : SQL, R, Python 약간
데이터 엔지니어
>> 빅데이터를 처리할 수 있는 인프라 & 아키텍처를 만드는 사람
>> 경력이 쌓이면 데이터 아키텍쳐라고도 부른다.
>> 요구기술 : 프로그래밍, 수학, 빅데이터, 다양한 데이터베이스 지식, ETL 및 BI(Business Intelligence) 도구들에 대한 지식
>> 주 사용 언어 : Python, SQL, 쉘스크립트
데이터 사이언티스트
>> 수학자 + 과학자 + 도메인전문가
>> 큰 데이터도 잘 다루고, 복잡한 문제를 해결하는 사람
>> 요구기술 : 수학, 통계학, 머신러닝, 딥러닝, 분산컴퓨팅, 데이터모델링, 스토리텔링, 시각화, 도메인지식, 커뮤니케이션
>> 주 사용 언어 : SQL, Python, R
[ 데이터 인프라 전체 흐름 ]
Sources : 데이터 만들어지는 곳
Ingestion and Transformation : 저장소
Storage : 데이터 웨어하우스, 데이터 레이크
Historical : 적재된 데이터를 가지고 예전 데이터를 분석
Predictive : 적재된 데이터를 가지고 미래를 예측
Output : 분석된 결과를 보여주기
위 강의를 들으면 여기서 나오는 단어들을 모두 이해할 수 있을 것이다~!~!~!
빠이팅 '-'
참고자료 URL - 최신 데이터 인프라를 위한 새로운 아키텍처
https://future.a16z.com/emerging-architectures-modern-data-infrastructure/
댓글