Đề cương khóa học

Tuần 1 — Giới thiệu về Kỹ Thuật Dữ Liệu

  • Các kiến thức cơ bản về kỹ thuật dữ liệu và stack dữ liệu hiện đại
  • Các mẫu và nguồn nhập dữ liệu
  • Khái niệm và trường hợp sử dụng của batch và streaming
  • Bài tập thực hành: nhập dữ liệu mẫu vào lưu trữ đám mây

Tuần 2 — Huy Hiệu Cơ Bản Databricks Lakehouse

  • Các kiến thức cơ bản về nền tảng Databricks và điều hướng workspace
  • Các khái niệm Delta Lake: ACID, thời gian du lịch, và sự tiến hóa mô hình
  • Bảo mật workspace, quyền truy cập, và các khái niệm cơ bản của Unity Catalog
  • Bài tập thực hành: tạo và quản lý bảng Delta

Tuần 3 — SQL Nâng Cao trên Databricks

  • Các cấu trúc SQL nâng cao và hàm cửa sổ quy mô lớn
  • Tối ưu hóa truy vấn, kế hoạch giải thích, và các mẫu có ý thức chi phí
  • Xem vật liệu, bộ đệm, và tối ưu hóa hiệu suất
  • Bài tập thực hành: tối ưu hóa truy vấn phân tích trên dữ liệu lớn

Tuần 4 — Databricks Certified Developer for Apache Spark (Chuẩn bị)

  • Kiến trúc Spark, RDDs, DataFrames, và Datasets sâu hơn
  • Các phép biến đổi và hành động chính của Spark; xem xét hiệu suất
  • Cơ bản về streaming Spark và các mẫu streaming cấu trúc
  • Bài tập thực hành: bài tập kiểm tra và bài toán thực tế

Tuần 5 — Giới thiệu về Mô Hình Dữ Liệu

  • Các khái niệm: mô hình dimensional, thiết kế sao/chema, và chuẩn hóa
  • Mô hình Lakehouse so với cách tiếp cận kho truyền thống
  • Các mẫu thiết kế cho dữ liệu sẵn sàng phân tích
  • Bài tập thực hành: xây dựng bảng và view sẵn sàng tiêu thụ

Tuần 6 — Giới thiệu về Công Cụ Nhập Dữ Liệu & Tự Động hóa Nhập Dữ Liệu

  • Các công cụ kết nối và nhập dữ liệu cho Databricks (AWS Glue, Data Factory, Kafka)
  • Các mẫu nhập stream và thiết kế micro-batch
  • Kiểm tra chất lượng dữ liệu, kiểm tra chất lượng, và thực thi mô hình
  • Bài tập thực hành: xây dựng các đường ống nhập dữ liệu bền vững

Tuần 7 — Giới thiệu về Git Flow và CI/CD cho Kỹ Thuật Dữ Liệu

  • Các chiến lược nhánh Git Flow và tổ chức kho lưu trữ
  • Dòng chảy CI/CD cho notebook, công việc, và cơ sở hạ tầng dưới dạng mã
  • Đánh giá, kiểm tra, và tự động hóa triển khai cho mã dữ liệu
  • Bài tập thực hành: triển khai quy trình làm việc dựa trên Git và tự động hóa triển khai công việc

Tuần 8 — Databricks Certified Data Engineer Associate (Chuẩn bị) & Các Mẫu Kỹ Thuật Dữ Liệu

  • Xem lại các chủ đề chứng chỉ và bài tập thực tế
  • Các mẫu kiến trúc: bronze/silver/gold, CDC, dimensions thay đổi chậm
  • Các mẫu vận hành: giám sát, cảnh báo, và nguồn gốc
  • Bài tập thực hành: đường ống end-to-end áp dụng các mẫu kỹ thuật

Tuần 9 — Giới thiệu về Airflow và Astronomer; Lập Trình Kịch Bản

  • Các khái niệm Airflow: DAGs, nhiệm vụ, toán tử, và lịch trình
  • Tổng quan về nền tảng Astronomer và các thực hành tốt nhất điều phối
  • Lập trình kịch bản cho tự động hóa: mẫu lập trình Python cho các tác vụ dữ liệu
  • Bài tập thực hành: điều phối công việc Databricks bằng DAGs Airflow

Tuần 10 — Trực Quan Hóa Dữ Liệu, Tableau, và Dự Án Cuối Khóa Tùy Chỉnh

  • Kết nối Tableau với Databricks và các thực hành tốt nhất cho lớp BI
  • Các nguyên tắc thiết kế bảng điều khiển và trực quan hóa có ý thức hiệu suất
  • Dự án cuối khóa: xác định phạm vi, triển khai, và trình bày dự án cuối khóa tùy chỉnh
  • Thuyết trình cuối cùng, đánh giá đồng nghiệp, và phản hồi của giáo viên

Tóm Tắt và Bước Tiếp Theo

Yêu cầu

  • Có hiểu biết về SQL cơ bản và các khái niệm dữ liệu
  • Kinh nghiệm lập trình bằng Python hoặc Scala
  • Thành thạo dịch vụ đám mây và môi trường ảo

Đối Tượng Tham Gia

  • Kỹ sư dữ liệu đang theo đuổi và thực hành
  • Nhà phát triển ETL/BI và kỹ sư phân tích
  • Đội ngũ nền tảng dữ liệu và DevOps hỗ trợ đường ống
 350 Giờ học

Số người tham gia


Giá cho mỗi người tham gia

Các khóa học sắp tới

Các danh mục liên quan