Data Engineer _ ver.2021
- CS 기초 Computer Science fundamentals
- 기본 터미널 사용 Basic terminal usage [일반 권장사항]
- 자료구조 & 알고리즘 [일반 권장사항]
- API [일반 권장사항]
- REST [일반 권장사항]
- 정형 데이터와 비정형 데이터 [일반 권장사항]
- 직렬화 Serialisation
- Linux [일반 권장 사항]
- CLI
- Vim
- Shell scripting 셸 스크립팅
- Cronjobs 크론잡
- 컴퓨터는 어떻게 작동합니까? [일반 권장사항]
- 인터넷은 어떻게 작동합니까? [일반 권장사항]
- Git - 버전 제어 Version control [일반 권장사항]
- 수학 & 통계 기초 [일반 권장사항]
*참고: Git은 소스 코드의 변경사항을 추적하고 프로그래머 간의 작업을 조정하는 데 사용됩니다. 일상적인 작업에서 Git 서버를 GitHub, GitLab 또는 Bitbucket과 같은 서비스로 사용할 것입니다.*
- 프로그래밍 언어 학습
- Python [개인 추천]
- Java [일반 권장사항]
- Scala
- Go
*참고: 깨끗하고 확장 가능한 코드를 작성하는 방법에 대해 알아보십시오. 프로그래밍 패러다임(functional vs OOP)과 모범 사례(design patterns, YAGNI, stateful vs stateless applications)를 이해하는 데 시간을 할애합니다. IDE 또는 VSCode와 같은 코드 편집기에 익숙해집니다.*
- Testing
- Unit testing 유닛 테스트 [일반 권장사항]
- Integration testing 통합 테스트 [일반 권장사항]
- Functional testing 기능 시험 [일반 권장사항]
- 데이터베이스 기본
- SQL [일반 권장 사항]
- Normalisation 표준화 [일반 권장사항]
- ACID transactions [일반 권장사항]
- CAP theorem [일반 권장사항]
- OLTP vs OLAP [일반 권장사항]
- Horizontal vs Vertical Scaling 수평/수직 스케일링 [일반 권장사항]
- Dimensional modeling 차원 모델링 [일반 권장사항]
- 관계형 데이터베이스 Relational databases
- MySQL [일반 권장사항]
- PostgreSQL [일반 권장사항]
- Maria DB
- Amazon Aurora
- 비관계형 데이터베이스 Non-relational databases
- 문서 데이터베이스 Document databases
- MongoDB [일반 권장사항]
- ElasticSearch [일반 권장사항]
- Apache Couch DB
- Azure Cormos DB
- 넓은 열 데이터베이스 Wide column databases
- Apache Cassandra [일반 권장사항]
- Apache HBase [일반 권장사항]
- Google Cloud Bigtable [개인 추천]
- 그래프 데이터베이스 Graph databases
- Neo4j
- Amazon Neptune
- 키-값 저장소 Key-value stores
- Redis [개인 추천]
- Memcached
- Amazon DynamoDB [일반 권장사항]
- 문서 데이터베이스 Document databases
*참고: Document, Wide column, Graph 및 Key-value NoSQL 데이터베이스의 차이점을 이해합니다. 각 범주에서 하나의 데이터베이스를 마스터하는 것이 좋습니다.*
- 데이터 웨어하우스 Data Warehouses
- Snowflake [일반 권장사항]
- Presto
- Apache Hive
- Apache Impala
- Amazon Redshift [일반 권장사항]
- Google BigQuery [개인 추천]
- Azure Synapse
- ClickHouse
- 객체 스토리지 Object storage
- AWS S3 [일반 권장사항]
- Azure Blob Storage
- Google Cloud Storage
- Apache Ozone
- 클러스터 컴퓨팅 기본 Cluster Computing fundametals
- Apache Hadoop [일반 권장사항]
- HDFS [일반 권장사항]
- MapReduce [일반 권장사항]
- Lambda & Kappa architectures
- Managed Hadoop [일반 권장사항]
- Amazon EMR
- Google Dataproc
- Azure Data Lake
*참고: 대부분의 최신 데이터 처리 프레임워크는 Apache Hadoop 및 MapReduce를 어느 정도 기반으로 합니다. 이러한 개념을 이해하면 최신 데이터 처리 프레임워크를 훨씬 빠르게 학습할 수 있습니다.*
- 전산처리 Data processing
- 배치 Batch
- Apache Pig [일반 권장사항]
- Apache Arrow
- data build tool [개인 추천]
- 하이브리드 Hybrid
- Apache Spark [일반 권장사항]
- Apache Beam [개인 추천]
- Apache Flink [일반 권장사항]
- Apache NiFi
- 스트리밍 Streaming
- Apache Kafka [개인 추천]
- Apache Storm [일반 권장사항]
- Apache Samza
- Amazon Kinesis
- 배치 Batch
*참고: 하이브리드 프레임워크는 배치 및 스트리밍 데이터를 모두 처리할 수 있습니다. 배치 데이터 처리는 종종 분석 데이터 웨어하우스 애플리케이션에 의해 수행됩니다.*
- 메시지 전송 Messaging
- RabbitMQ [일반 권장사항]
- Apache ActiveMQ
- Amazon SNS & SQS
- Google PubSub
- Azure Service Bus
- 워크플로우 스케줄링 Workflow Scheduling
- Apache Airflow [개인 추천]
- Google Composer
- Apache Oozie
- Luigi
*참고: Cloud Composer는 Google Cloud Platform에서 관리되는 Apache Airflow 서비스입니다.*
- 데이터 파이프라인에 대한 모니터링 및 관찰 가능성 Monitoring and observability for data pipelines
- Prometheus [일반 권장사항]
- Datadog [일반 권장사항]
- Sentry [일반 권장사항]
- Monte Carlo
- Datafold
- Soda Data
- StatsD
- 네트워킹 Networking
- 프로토콜 Protocols [일반 권장사항]
- HTTP / HTTPS
- TCP
- SSH
- IP
- DNS
- 방화벽 Firewalls [일반 권장사항]
- VPN [일반 권장사항]
- VPC [일반 권장사항]
- 프로토콜 Protocols [일반 권장사항]
- 인프라 코드 Infrastructure as Code
- 컨테이너 Containers
- Docker [개인 추천]
- LXC
- 컨테이너 오케스트레이션 Container orchestration
- Kubernetes [일반 권장사항]
- Docker Swarm
- Apache Mesos
- Google Kubernetes Engine (GKE) [일반 권장사항]
- 인프라 프로비저닝 Infrastructure provisioning
- Terraform [개인 추천]
- Pulumi
- AWS CDK [일반 권장사항]
- 컨테이너 Containers
- CI/CD
- GitHub Actions [일반 권장사항]
- Jenkins [일반 권장사항]
- ID 및 액세스 관리 Identity and access management
- Active Directory [일반 권장사항]
- Azure Active Directory
- 데이터 보안 및 개인 정보 보호 Data security & privacy
- 법적 준수 Legal compliance [일반 권장사항]
- 암호화 Encryption [일반 권장사항]
- 키 관리 Key management [일반 권장사항]
- 데이터 거버넌스 및 무결성 Data governance & integrity
[ 참고 ] https://github.com/datastacktv/data-engineer-roadmap
'잡지식 > 로드맵 & 커리큘럼' 카테고리의 다른 글
데이터 엔지니어 로드맵을 알아보자 _ Velog _ @dlawlrb (0) | 2021.11.02 |
---|---|
[교육] 파이썬을 활용한 공공데이터 분석(심화) (0) | 2020.09.12 |
데이터 분석가? 데이터 엔지니어? 머신러닝 엔지니어? 데이터 사이언티스트? (3) | 2020.09.07 |
[AI Engineer & Data Scientist가 되는 날까지] 직접 설계한 개인 로드맵 (커리큘럼) (0) | 2020.09.05 |
댓글