Đề cương khóa học
Giới thiệu, Mục tiêu và Chiến lược Chuyển đổi
- Mục tiêu khóa học, đối chiếu hồ sơ người tham gia và tiêu chí thành công
- Các phương pháp chuyển đổi cấp cao và các yếu tố rủi ro
- Thiết lập workspace, repository và bộ dữ liệu thực hành
Ngày 1 — Cơ bản về Chuyển đổi và Kiến trúc
- Các khái niệm Lakehouse, tổng quan Delta Lake và kiến trúc Databricks
- Sự khác biệt giữa SMP và MPP và tác động đến việc chuyển đổi
- Thiết kế Medallion (Bronze→Silver→Gold) và tổng quan Unity Catalog
Ngày 1 Thực hành — Dịch một Stored Procedure
- Thực hành hands-on chuyển đổi stored procedure mẫu thành notebook
- Ánh xạ các bảng tạm và con trỏ (cursor) sang các biến đổi DataFrame
- Xác thực và so sánh với kết quả gốc
Ngày 2 — Delta Lake Nâng Cao & Tải Dữ liệu Tăng dần
- Giao dịch ACID, nhật ký commit, phiên bản và thời gian di chuyển
- Auto Loader, mẫu MERGE INTO, upserts và tiến hóa schema
- Tối ưu hóa OPTIMIZE, VACUUM, Z-ORDER, phân vùng và điều chỉnh lưu trữ
Ngày 2 Thực hành — Tải Dữ liệu Tăng dần & Tối ưu hóa
- Triển khai việc tải dữ liệu tự động (Auto Loader) và quy trình MERGE
- Áp dụng OPTIMIZE, Z-ORDER và VACUUM; xác nhận kết quả
- Đo lường cải thiện hiệu suất đọc/ghi
Ngày 3 — SQL trong Databricks, Hiệu suất & Gỡ lỗi
- Các tính năng SQL phân tích: hàm cửa sổ, hàm cấp cao, xử lý JSON/mảng
- Đọc Spark UI, DAGs, shuffle, giai đoạn, tác vụ và chẩn đoán cổ chai
- Các mẫu tối ưu hóa truy vấn: join phát sóng, gợi ý, bộ đệm và giảm thiểu tràn nhớ
Ngày 3 Thực hành — Refactoring SQL & Tối ưu hóa Hiệu suất
- Refactor quy trình SQL nặng thành Spark SQL tối ưu
- Sử dụng vết tích Spark UI để xác định và sửa lỗi chênh lệch và shuffle
- Đánh giá trước/sau và ghi lại các bước tối ưu hóa
Ngày 4 — PySpark Tác chiến: Thay thế Logic Thủ tục
- Mô hình thực thi Spark: trình điều khiển, executor, đánh giá lười biếng và các chiến lược phân vùng
- Chuyển đổi vòng lặp và con trỏ (cursor) thành các thao tác DataFrame vector hóa
- Modularization, UDFs/pandas UDFs, widget và thư viện tái sử dụng
Ngày 4 Thực hành — Refactoring Script Thủ tục
- Refactor script ETL thủ tục thành notebook PySpark modular
- Giới thiệu parametrization, kiểm thử kiểu đơn vị và các hàm tái sử dụng
- Xem xét mã code và áp dụng danh sách kiểm tra tốt nhất
Ngày 5 — Điều phối, Pipeline Từ Đầu đến Cuối & Các Thực hành Tốt Nhất
- Databricks Workflows: thiết kế công việc, phụ thuộc tác vụ, kích hoạt và xử lý lỗi
- Thiết kế pipeline Medallion tăng dần với quy tắc chất lượng và kiểm tra schema
- Tích hợp với Git (GitHub/Azure DevOps), CI và chiến lược kiểm thử cho logic PySpark
Ngày 5 Thực hành — Xây dựng Pipeline Từ Đầu đến Cuối Hoàn chỉnh
- Lắp ráp pipeline Bronze→Silver→Gold được điều phối bằng Workflows
- Triển khai ghi log, kiểm toán, thử lại và xác thực tự động
- Chạy pipeline đầy đủ, xác nhận đầu ra và chuẩn bị các ghi chú triển khai
Hoạt động hóa, Quản lý và Sẵn sàng Sản xuất
- Các thực hành tốt nhất về quản lý Unity Catalog, dòng dõi và kiểm soát truy cập
- Chi phí, kích thước cluster, tự động điều chỉnh và các mẫu chạy đồng thời công việc
- Danh sách kiểm tra triển khai, chiến lược rollback và tạo runbook
Xem lại Cuối cùng, Chuyển giao Kiến thức và Bước Kế tiếp
- Bài trình bày của người tham gia về công việc chuyển đổi và bài học đã rút ra
- Phân tích khoảng cách, các hoạt động theo dõi đề xuất và bàn giao tài liệu đào tạo
- Tài liệu tham khảo, các đường học tập tiếp theo và các lựa chọn hỗ trợ
Yêu cầu
- Hiểu biết về các khái niệm kỹ thuật dữ liệu
- Kinh nghiệm với SQL và stored procedures (Synapse / SQL Server)
- Quen thuộc với các khái niệm điều phối ETL (ADF hoặc tương tự)
Đối Tượng
- Quản lý công nghệ có nền tảng về kỹ thuật dữ liệu
- Kỹ sư dữ liệu chuyển đổi logic OLAP thủ tục sang các mô hình Lakehouse
- Kỹ sư nền tảng chịu trách nhiệm triển khai Databricks