Đề cương khóa học

Giới thiệu, Mục tiêu và Chiến lược Di chuyển

  • Mục tiêu khóa học, phù hợp hóa hồ sơ người tham gia và các tiêu chí thành công
  • Các phương pháp di chuyển tổng quan và xem xét rủi ro
  • Cài đặt không gian làm việc, kho lưu trữ và bộ dữ liệu thí nghiệm

Ngày 1 — Cơ bản về Di chuyển và Kiến trúc

  • Các khái niệm Lakehouse, tổng quan Delta Lake và kiến trúc Databricks
  • Sự khác biệt giữa SMP và MPP và ý nghĩa đối với việc di chuyển
  • Thiết kế Medallion (Bronze→Silver→Gold) và tổng quan Unity Catalog

Ngày 1 Thí nghiệm — Chuyển đổi một Stored Procedure

  • Thực hành di chuyển stored procedure mẫu sang notebook
  • Ánh xạ bảng tạm và con trỏ vào các phép biến đổi DataFrame
  • Xác thực và so sánh với đầu ra gốc

Ngày 2 — Delta Lake Nâng cao & Nạp Dữ liệu Tăng dần

  • Giao dịch ACID, nhật ký cam kết, phiên bản và du lịch thời gian
  • Auto Loader, mẫu MERGE INTO, upserts và tiến hóa schema
  • Tối ưu hóa, thu hồi rác (VACUUM), Z-ORDER, phân vùng và điều chỉnh lưu trữ

Ngày 2 Thí nghiệm — Nạp Dữ liệu Tăng dần & Tối ưu hóa

  • Triển khai việc nạp dữ liệu Auto Loader và các quy trình MERGE
  • Áp dụng OPTIMIZE, Z-ORDER, VACUUM; xác thực kết quả
  • Đo lường cải thiện hiệu suất đọc/viết

Ngày 3 — SQL trong Databricks, Hiệu suất & Gỡ lỗi

  • Các tính năng SQL phân tích: các hàm cửa sổ, hàm bậc cao, xử lý JSON/mảng
  • Đọc giao diện Spark UI, DAGs, trộn (shuffles), giai đoạn (stages), tác vụ (tasks) và chẩn đoán cổ chai
  • Các mô hình điều chỉnh truy vấn: join phát sóng (broadcast joins), gợi ý (hints), bộ đệm (caching) và giảm thiểu tràn (spill reduction)

Ngày 3 Thí nghiệm — Chỉnh sửa lại SQL & Điều chỉnh Hiệu suất

  • Chỉnh sửa lại quy trình SQL nặng thành Spark SQL tối ưu
  • Sử dụng dấu vết Spark UI để xác định và sửa lỗi chéo (skew) và trộn (shuffle)
  • Đánh giá hiệu suất trước/sau và ghi lại các bước điều chỉnh

Ngày 4 — PySpark Tác chiến: Thay thế Logic Quy trình

  • Mô hình thực thi Spark: trình điều khiển (driver), các tác vụ thực hiện (executors), đánh giá lười biếng (lazy evaluation) và các chiến lược phân vùng
  • Biến đổi vòng lặp và con trỏ thành các phép toán DataFrame vector hóa
  • Modularization, UDFs/pandas UDFs, widget và thư viện có thể tái sử dụng

Ngày 4 Thí nghiệm — Chỉnh sửa lại Kịch bản Quy trình

  • Chỉnh sửa lại kịch bản ETL quy trình thành các notebook PySpark mô-đun
  • Giới thiệu parametrization, kiểm thử kiểu đơn vị (unit-style tests) và hàm có thể tái sử dụng
  • Xem xét mã code và áp dụng danh sách kiểm tra tốt nhất

Ngày 5 — Quản lý Quy trình, Pipeline từ Đầu đến Cuối & Các Thực hành Tốt nhất

  • Databricks Workflows: thiết kế công việc, sự phụ thuộc của tác vụ, kích hoạt (triggers) và xử lý lỗi
  • Thiết kế các pipeline Medallion tăng dần với quy tắc chất lượng và xác thực schema
  • Tích hợp với Git (GitHub/Azure DevOps), CI, và chiến lược kiểm thử cho logic PySpark

Ngày 5 Thí nghiệm — Xây dựng một Pipeline Hoàn chỉnh từ Đầu đến Cuối

  • Lắp ráp pipeline Bronze→Silver→Gold được quản lý với Workflows
  • Triển khai ghi log, kiểm toán, thử lại (retries) và xác thực tự động
  • Chạy pipeline đầy đủ, xác thực đầu ra và chuẩn bị lưu ý triển khai

Hoạt động, Quản lý và Sẵn sàng Sản xuất

  • Các thực hành tốt nhất về quản lý Unity Catalog, dòng dõi (lineage) và kiểm soát truy cập
  • Chi phí, kích thước cụm (cluster), tự động mở rộng (autoscaling) và các mẫu đồng thời công việc (job concurrency)
  • Danh sách kiểm tra triển khai, chiến lược lùi (rollback) và tạo hướng dẫn chạy (runbook)

Tổng kết Cuối cùng, Chuyển giao Kiến thức và Bước Tiếp theo

  • Bài trình bày của người tham gia về công việc di chuyển và bài học đã rút ra
  • Phân tích khoảng trống, các hoạt động theo dõi được đề xuất và bàn giao tài liệu đào tạo
  • Tài liệu tham khảo, các con đường học hỏi tiếp theo và các tùy chọn hỗ trợ

Yêu cầu

  • Hiểu biết về các khái niệm kỹ thuật dữ liệu
  • Kinh nghiệm với SQL và stored procedures (Synapse / SQL Server)
  • Quen thuộc với các khái niệm quản lý ETL (ADF hoặc tương tự)

Đối Tượng

  • Các nhà quản lý công nghệ có nền tảng về kỹ thuật dữ liệu
  • Kỹ sư dữ liệu chuyển đổi logic OLAP quy trình sang các mẫu Lakehouse
  • Kỹ sư nền tảng chịu trách nhiệm triển khai Databricks
 35 Giờ

Số người tham gia


Giá cho mỗi học viên

Các khóa học sắp tới

Các danh mục liên quan