Đề cương khóa học
Giới thiệu, Mục tiêu và Chiến lược Di chuyển
- Mục tiêu khóa học, phù hợp hóa hồ sơ người tham gia và các tiêu chí thành công
- Các phương pháp di chuyển tổng quan và xem xét rủi ro
- Cài đặt không gian làm việc, kho lưu trữ và bộ dữ liệu thí nghiệm
Ngày 1 — Cơ bản về Di chuyển và Kiến trúc
- Các khái niệm Lakehouse, tổng quan Delta Lake và kiến trúc Databricks
- Sự khác biệt giữa SMP và MPP và ý nghĩa đối với việc di chuyển
- Thiết kế Medallion (Bronze→Silver→Gold) và tổng quan Unity Catalog
Ngày 1 Thí nghiệm — Chuyển đổi một Stored Procedure
- Thực hành di chuyển stored procedure mẫu sang notebook
- Ánh xạ bảng tạm và con trỏ vào các phép biến đổi DataFrame
- Xác thực và so sánh với đầu ra gốc
Ngày 2 — Delta Lake Nâng cao & Nạp Dữ liệu Tăng dần
- Giao dịch ACID, nhật ký cam kết, phiên bản và du lịch thời gian
- Auto Loader, mẫu MERGE INTO, upserts và tiến hóa schema
- Tối ưu hóa, thu hồi rác (VACUUM), Z-ORDER, phân vùng và điều chỉnh lưu trữ
Ngày 2 Thí nghiệm — Nạp Dữ liệu Tăng dần & Tối ưu hóa
- Triển khai việc nạp dữ liệu Auto Loader và các quy trình MERGE
- Áp dụng OPTIMIZE, Z-ORDER, VACUUM; xác thực kết quả
- Đo lường cải thiện hiệu suất đọc/viết
Ngày 3 — SQL trong Databricks, Hiệu suất & Gỡ lỗi
- Các tính năng SQL phân tích: các hàm cửa sổ, hàm bậc cao, xử lý JSON/mảng
- Đọc giao diện Spark UI, DAGs, trộn (shuffles), giai đoạn (stages), tác vụ (tasks) và chẩn đoán cổ chai
- Các mô hình điều chỉnh truy vấn: join phát sóng (broadcast joins), gợi ý (hints), bộ đệm (caching) và giảm thiểu tràn (spill reduction)
Ngày 3 Thí nghiệm — Chỉnh sửa lại SQL & Điều chỉnh Hiệu suất
- Chỉnh sửa lại quy trình SQL nặng thành Spark SQL tối ưu
- Sử dụng dấu vết Spark UI để xác định và sửa lỗi chéo (skew) và trộn (shuffle)
- Đánh giá hiệu suất trước/sau và ghi lại các bước điều chỉnh
Ngày 4 — PySpark Tác chiến: Thay thế Logic Quy trình
- Mô hình thực thi Spark: trình điều khiển (driver), các tác vụ thực hiện (executors), đánh giá lười biếng (lazy evaluation) và các chiến lược phân vùng
- Biến đổi vòng lặp và con trỏ thành các phép toán DataFrame vector hóa
- Modularization, UDFs/pandas UDFs, widget và thư viện có thể tái sử dụng
Ngày 4 Thí nghiệm — Chỉnh sửa lại Kịch bản Quy trình
- Chỉnh sửa lại kịch bản ETL quy trình thành các notebook PySpark mô-đun
- Giới thiệu parametrization, kiểm thử kiểu đơn vị (unit-style tests) và hàm có thể tái sử dụng
- Xem xét mã code và áp dụng danh sách kiểm tra tốt nhất
Ngày 5 — Quản lý Quy trình, Pipeline từ Đầu đến Cuối & Các Thực hành Tốt nhất
- Databricks Workflows: thiết kế công việc, sự phụ thuộc của tác vụ, kích hoạt (triggers) và xử lý lỗi
- Thiết kế các pipeline Medallion tăng dần với quy tắc chất lượng và xác thực schema
- Tích hợp với Git (GitHub/Azure DevOps), CI, và chiến lược kiểm thử cho logic PySpark
Ngày 5 Thí nghiệm — Xây dựng một Pipeline Hoàn chỉnh từ Đầu đến Cuối
- Lắp ráp pipeline Bronze→Silver→Gold được quản lý với Workflows
- Triển khai ghi log, kiểm toán, thử lại (retries) và xác thực tự động
- Chạy pipeline đầy đủ, xác thực đầu ra và chuẩn bị lưu ý triển khai
Hoạt động, Quản lý và Sẵn sàng Sản xuất
- Các thực hành tốt nhất về quản lý Unity Catalog, dòng dõi (lineage) và kiểm soát truy cập
- Chi phí, kích thước cụm (cluster), tự động mở rộng (autoscaling) và các mẫu đồng thời công việc (job concurrency)
- Danh sách kiểm tra triển khai, chiến lược lùi (rollback) và tạo hướng dẫn chạy (runbook)
Tổng kết Cuối cùng, Chuyển giao Kiến thức và Bước Tiếp theo
- Bài trình bày của người tham gia về công việc di chuyển và bài học đã rút ra
- Phân tích khoảng trống, các hoạt động theo dõi được đề xuất và bàn giao tài liệu đào tạo
- Tài liệu tham khảo, các con đường học hỏi tiếp theo và các tùy chọn hỗ trợ
Yêu cầu
- Hiểu biết về các khái niệm kỹ thuật dữ liệu
- Kinh nghiệm với SQL và stored procedures (Synapse / SQL Server)
- Quen thuộc với các khái niệm quản lý ETL (ADF hoặc tương tự)
Đối Tượng
- Các nhà quản lý công nghệ có nền tảng về kỹ thuật dữ liệu
- Kỹ sư dữ liệu chuyển đổi logic OLAP quy trình sang các mẫu Lakehouse
- Kỹ sư nền tảng chịu trách nhiệm triển khai Databricks