Đề cương khóa học

Giới thiệu, Mục tiêu và Chiến lược Chuyển đổi

  • Mục tiêu khóa học, đối chiếu hồ sơ người tham gia và tiêu chí thành công
  • Các phương pháp chuyển đổi cấp cao và các yếu tố rủi ro
  • Thiết lập workspace, repository và bộ dữ liệu thực hành

Ngày 1 — Cơ bản về Chuyển đổi và Kiến trúc

  • Các khái niệm Lakehouse, tổng quan Delta Lake và kiến trúc Databricks
  • Sự khác biệt giữa SMP và MPP và tác động đến việc chuyển đổi
  • Thiết kế Medallion (Bronze→Silver→Gold) và tổng quan Unity Catalog

Ngày 1 Thực hành — Dịch một Stored Procedure

  • Thực hành hands-on chuyển đổi stored procedure mẫu thành notebook
  • Ánh xạ các bảng tạm và con trỏ (cursor) sang các biến đổi DataFrame
  • Xác thực và so sánh với kết quả gốc

Ngày 2 — Delta Lake Nâng Cao & Tải Dữ liệu Tăng dần

  • Giao dịch ACID, nhật ký commit, phiên bản và thời gian di chuyển
  • Auto Loader, mẫu MERGE INTO, upserts và tiến hóa schema
  • Tối ưu hóa OPTIMIZE, VACUUM, Z-ORDER, phân vùng và điều chỉnh lưu trữ

Ngày 2 Thực hành — Tải Dữ liệu Tăng dần & Tối ưu hóa

  • Triển khai việc tải dữ liệu tự động (Auto Loader) và quy trình MERGE
  • Áp dụng OPTIMIZE, Z-ORDER và VACUUM; xác nhận kết quả
  • Đo lường cải thiện hiệu suất đọc/ghi

Ngày 3 — SQL trong Databricks, Hiệu suất & Gỡ lỗi

  • Các tính năng SQL phân tích: hàm cửa sổ, hàm cấp cao, xử lý JSON/mảng
  • Đọc Spark UI, DAGs, shuffle, giai đoạn, tác vụ và chẩn đoán cổ chai
  • Các mẫu tối ưu hóa truy vấn: join phát sóng, gợi ý, bộ đệm và giảm thiểu tràn nhớ

Ngày 3 Thực hành — Refactoring SQL & Tối ưu hóa Hiệu suất

  • Refactor quy trình SQL nặng thành Spark SQL tối ưu
  • Sử dụng vết tích Spark UI để xác định và sửa lỗi chênh lệch và shuffle
  • Đánh giá trước/sau và ghi lại các bước tối ưu hóa

Ngày 4 — PySpark Tác chiến: Thay thế Logic Thủ tục

  • Mô hình thực thi Spark: trình điều khiển, executor, đánh giá lười biếng và các chiến lược phân vùng
  • Chuyển đổi vòng lặp và con trỏ (cursor) thành các thao tác DataFrame vector hóa
  • Modularization, UDFs/pandas UDFs, widget và thư viện tái sử dụng

Ngày 4 Thực hành — Refactoring Script Thủ tục

  • Refactor script ETL thủ tục thành notebook PySpark modular
  • Giới thiệu parametrization, kiểm thử kiểu đơn vị và các hàm tái sử dụng
  • Xem xét mã code và áp dụng danh sách kiểm tra tốt nhất

Ngày 5 — Điều phối, Pipeline Từ Đầu đến Cuối & Các Thực hành Tốt Nhất

  • Databricks Workflows: thiết kế công việc, phụ thuộc tác vụ, kích hoạt và xử lý lỗi
  • Thiết kế pipeline Medallion tăng dần với quy tắc chất lượng và kiểm tra schema
  • Tích hợp với Git (GitHub/Azure DevOps), CI và chiến lược kiểm thử cho logic PySpark

Ngày 5 Thực hành — Xây dựng Pipeline Từ Đầu đến Cuối Hoàn chỉnh

  • Lắp ráp pipeline Bronze→Silver→Gold được điều phối bằng Workflows
  • Triển khai ghi log, kiểm toán, thử lại và xác thực tự động
  • Chạy pipeline đầy đủ, xác nhận đầu ra và chuẩn bị các ghi chú triển khai

Hoạt động hóa, Quản lý và Sẵn sàng Sản xuất

  • Các thực hành tốt nhất về quản lý Unity Catalog, dòng dõi và kiểm soát truy cập
  • Chi phí, kích thước cluster, tự động điều chỉnh và các mẫu chạy đồng thời công việc
  • Danh sách kiểm tra triển khai, chiến lược rollback và tạo runbook

Xem lại Cuối cùng, Chuyển giao Kiến thức và Bước Kế tiếp

  • Bài trình bày của người tham gia về công việc chuyển đổi và bài học đã rút ra
  • Phân tích khoảng cách, các hoạt động theo dõi đề xuất và bàn giao tài liệu đào tạo
  • Tài liệu tham khảo, các đường học tập tiếp theo và các lựa chọn hỗ trợ

Yêu cầu

  • Hiểu biết về các khái niệm kỹ thuật dữ liệu
  • Kinh nghiệm với SQL và stored procedures (Synapse / SQL Server)
  • Quen thuộc với các khái niệm điều phối ETL (ADF hoặc tương tự)

Đối Tượng

  • Quản lý công nghệ có nền tảng về kỹ thuật dữ liệu
  • Kỹ sư dữ liệu chuyển đổi logic OLAP thủ tục sang các mô hình Lakehouse
  • Kỹ sư nền tảng chịu trách nhiệm triển khai Databricks
 35 Giờ học

Số người tham gia


Giá cho mỗi người tham gia

Các khóa học sắp tới

Các danh mục liên quan