Đề cương khóa học

Giới thiệu về Apache Airflow

  • Workflow orchestration là gì
  • Các tính năng và lợi ích chính của Apache Airflow
  • Cải tiến và tổng quan về hệ sinh thái của Airflow 2.x

Kiến trúc và các khái niệm cơ bản

  • Quá trình lập lịch, máy chủ web và các tiến trình làm việc
  • DAGs, nhiệm vụ và các toán tử
  • Các bộ thực thi và backend (Local, Celery, Kubernetes)

Cài đặt và thiết lập

  • Cài đặt Airflow trong các môi trường local và cloud
  • Cấu hình Airflow với các bộ thực thi khác nhau
  • Cài đặt các cơ sở dữ liệu metadata và kết nối

Khám phá giao diện người dùng và CLI của Airflow

  • Khám phá giao diện web của Airflow
  • Theo dõi các chạy DAG, nhiệm vụ và nhật ký
  • Sử dụng CLI của Airflow cho quản trị

Tạo và quản lý DAGs

  • Tạo DAGs bằng TaskFlow API
  • Sử dụng các toán tử, cảm biến và các hook
  • Quản lý các phụ thuộc và khoảng thời gian lập lịch

Tích hợp Airflow với các dịch vụ dữ liệu và cloud

  • Kết nối với các cơ sở dữ liệu, API và hàng đợi tin nhắn
  • Chạy các pipeline ETL bằng Airflow
  • Các tích hợp cloud: AWS, GCP, Azure operators

Theo dõi và khả năng quan sát

  • Nhật ký nhiệm vụ và theo dõi thời gian thực
  • Thống kê với Prometheus và Grafana
  • Cảnh báo và thông báo qua email hoặc Slack

Bảo mật Apache Airflow

  • Quyền truy cập dựa trên vai trò (RBAC)
  • Xác thực với LDAP, OAuth và SSO
  • Quản lý bí mật với Vault và các kho bí mật cloud

Phóng to Apache Airflow

  • Song song, đồng thời và các hàng đợi nhiệm vụ
  • Sử dụng CeleryExecutor và KubernetesExecutor
  • Triển khai Airflow trên Kubernetes bằng Helm

Các tiện ích tốt nhất cho sản xuất

  • Kiểm soát phiên bản và CI/CD cho DAGs
  • Kiểm tra và gỡ lỗi DAGs
  • Giữ tính tin cậy và hiệu suất khi phóng to

Giải quyết vấn đề và tối ưu hóa

  • Gỡ lỗi các DAGs và nhiệm vụ thất bại
  • Tối ưu hóa hiệu suất DAGs
  • Các lỗi thường gặp và cách tránh chúng

Tóm lược và các bước tiếp theo

Yêu cầu

    Kinh nghiệm với lập trình Python
  • Thông thạo các khái niệm về công nghệ dữ liệu hoặc DevOps
  • Hiểu về ETL hoặc điều phối luồng làm việc

Đối tượng

  • Nhà khoa học dữ liệu
  • Kỹ sư dữ liệu
  • Kỹ sư DevOps và cơ sở hạ tầng
  • Nhà phát triển phần mềm
 21 Giờ học

Số người tham gia


Giá cho mỗi người tham gia

Đánh giá (7)

Các khóa học sắp tới

Các danh mục liên quan