본문 바로가기
잡지식/로드맵 & 커리큘럼

데이터 엔지니어 로드맵 / 공부법 / 방향성 / 기술스택

by 남르미누 2021. 10. 19.

Data Engineer _ ver.2021

 

  • CS 기초 Computer Science fundamentals
    • 기본 터미널 사용 Basic terminal usage [일반 권장사항]
    • 자료구조 & 알고리즘 [일반 권장사항]
    • API [일반 권장사항]
    • REST [일반 권장사항]
    • 정형 데이터와 비정형 데이터 [일반 권장사항]
    • 직렬화 Serialisation
    • Linux [일반 권장 사항]
      • CLI
      • Vim
      • Shell scripting 셸 스크립팅
      • Cronjobs 크론잡
    • 컴퓨터는 어떻게 작동합니까? [일반 권장사항]
    • 인터넷은 어떻게 작동합니까? [일반 권장사항]
    • Git - 버전 제어 Version control [일반 권장사항]
    • 수학 & 통계 기초 [일반 권장사항]

 

*참고: Git은 소스 코드의 변경사항을 추적하고 프로그래머 간의 작업을 조정하는 데 사용됩니다. 일상적인 작업에서 Git 서버를 GitHub, GitLab 또는 Bitbucket과 같은 서비스로 사용할 것입니다.*

 

 

  • 프로그래밍 언어 학습
    • Python [개인 추천]
    • Java [일반 권장사항]
    • Scala
    • Go

 

 

*참고: 깨끗하고 확장 가능한 코드를 작성하는 방법에 대해 알아보십시오. 프로그래밍 패러다임(functional vs OOP)과 모범 사례(design patterns, YAGNI, stateful vs stateless applications)를 이해하는 데 시간을 할애합니다. IDE 또는 VSCode와 같은 코드 편집기에 익숙해집니다.*

 

 

  • Testing
    • Unit testing 유닛 테스트 [일반 권장사항]
    • Integration testing 통합 테스트 [일반 권장사항]
    • Functional testing 기능 시험 [일반 권장사항]

 

  • 데이터베이스 기본
    • SQL [일반 권장 사항]
    • Normalisation 표준화 [일반 권장사항]
    • ACID transactions [일반 권장사항]
    • CAP theorem [일반 권장사항]
    • OLTP vs OLAP [일반 권장사항]
    • Horizontal vs Vertical Scaling 수평/수직 스케일링 [일반 권장사항]
    • Dimensional modeling 차원 모델링 [일반 권장사항]

 

  • 관계형 데이터베이스 Relational databases
    • MySQL [일반 권장사항]
    • PostgreSQL [일반 권장사항]
    • Maria DB
    • Amazon Aurora

 

  • 비관계형 데이터베이스 Non-relational databases
    • 문서 데이터베이스 Document databases
      • MongoDB [일반 권장사항]
      • ElasticSearch [일반 권장사항]
      • Apache Couch DB
      • Azure Cormos DB
    • 넓은 열 데이터베이스 Wide column databases
      • Apache Cassandra [일반 권장사항]
      • Apache HBase [일반 권장사항]
      • Google Cloud Bigtable [개인 추천]
    • 그래프 데이터베이스 Graph databases
      • Neo4j
      • Amazon Neptune
    • 키-값 저장소 Key-value stores
      • Redis [개인 추천]
      • Memcached
      • Amazon DynamoDB [일반 권장사항]

 

 

*참고: Document, Wide column, Graph 및 Key-value NoSQL 데이터베이스의 차이점을 이해합니다. 각 범주에서 하나의 데이터베이스를 마스터하는 것이 좋습니다.*

 

 

  • 데이터 웨어하우스 Data Warehouses
    • Snowflake [일반 권장사항]
    • Presto
    • Apache Hive
    • Apache Impala
    • Amazon Redshift [일반 권장사항]
    • Google BigQuery [개인 추천]
    • Azure Synapse
    • ClickHouse

 

  • 객체 스토리지 Object storage
    • AWS S3 [일반 권장사항]
    • Azure Blob Storage
    • Google Cloud Storage
    • Apache Ozone

 

  • 클러스터 컴퓨팅 기본 Cluster Computing fundametals
    • Apache Hadoop [일반 권장사항]
    • HDFS [일반 권장사항]
    • MapReduce [일반 권장사항]
    • Lambda & Kappa architectures
    • Managed Hadoop [일반 권장사항]
      • Amazon EMR
      • Google Dataproc
      • Azure Data Lake

 

 

*참고: 대부분의 최신 데이터 처리 프레임워크는 Apache Hadoop 및 MapReduce를 어느 정도 기반으로 합니다. 이러한 개념을 이해하면 최신 데이터 처리 프레임워크를 훨씬 빠르게 학습할 수 있습니다.*

 

 

  • 전산처리 Data processing
    • 배치 Batch
      • Apache Pig [일반 권장사항]
      • Apache Arrow
      • data build tool [개인 추천]
    • 하이브리드 Hybrid
      • Apache Spark [일반 권장사항]
      • Apache Beam [개인 추천]
      • Apache Flink [일반 권장사항]
      • Apache NiFi
    • 스트리밍 Streaming
      • Apache Kafka [개인 추천]
      • Apache Storm [일반 권장사항]
      • Apache Samza
      • Amazon Kinesis

 

 

*참고: 하이브리드 프레임워크는 배치 및 스트리밍 데이터를 모두 처리할 수 있습니다. 배치 데이터 처리는 종종 분석 데이터 웨어하우스 애플리케이션에 의해 수행됩니다.*

 

 

  • 메시지 전송 Messaging
    • RabbitMQ [일반 권장사항]
    • Apache ActiveMQ
    • Amazon SNS & SQS
    • Google PubSub
    • Azure Service Bus

 

  • 워크플로우 스케줄링 Workflow Scheduling
    • Apache Airflow [개인 추천]
    • Google Composer
    • Apache Oozie
    • Luigi

 

 

*참고: Cloud Composer는 Google Cloud Platform에서 관리되는 Apache Airflow 서비스입니다.*

 

 

  • 데이터 파이프라인에 대한 모니터링 및 관찰 가능성 Monitoring and observability for data pipelines
    • Prometheus [일반 권장사항]
    • Datadog [일반 권장사항]
    • Sentry [일반 권장사항]
    • Monte Carlo
    • Datafold
    • Soda Data
    • StatsD

 

  • 네트워킹 Networking
    • 프로토콜 Protocols [일반 권장사항]
      • HTTP / HTTPS
      • TCP
      • SSH
      • IP
      • DNS
    • 방화벽 Firewalls [일반 권장사항]
    • VPN [일반 권장사항]
    • VPC [일반 권장사항]

 

  • 인프라 코드 Infrastructure as Code
    • 컨테이너 Containers
      • Docker [개인 추천]
      • LXC
    • 컨테이너 오케스트레이션 Container orchestration
      • Kubernetes [일반 권장사항]
      • Docker Swarm
      • Apache Mesos
      • Google Kubernetes Engine (GKE) [일반 권장사항]
    • 인프라 프로비저닝 Infrastructure provisioning
      • Terraform [개인 추천]
      • Pulumi
      • AWS CDK [일반 권장사항]

 

  • CI/CD
    • GitHub Actions [일반 권장사항]
    • Jenkins [일반 권장사항]

 

  • ID 및 액세스 관리 Identity and access management
    • Active Directory [일반 권장사항]
    • Azure Active Directory

 

  • 데이터 보안 및 개인 정보 보호 Data security & privacy
    • 법적 준수 Legal compliance [일반 권장사항]
    • 암호화 Encryption [일반 권장사항]
    • 키 관리 Key management [일반 권장사항]
    • 데이터 거버넌스 및 무결성 Data governance & integrity

 

 

 

 

 

 

[ 참고 ] https://github.com/datastacktv/data-engineer-roadmap

 

GitHub - datastacktv/data-engineer-roadmap: Roadmap to becoming a data engineer in 2021

Roadmap to becoming a data engineer in 2021. Contribute to datastacktv/data-engineer-roadmap development by creating an account on GitHub.

github.com

 

댓글