Đề cương khóa học
PySpark & Học máy
Module 1: Nền tảng Dữ liệu lớn & Spark
- Tổng quan về hệ sinh thái Dữ liệu lớn và vai trò của Spark trong các nền tảng dữ liệu hiện đại
- Tìm hiểu kiến trúc Spark: driver, executors, trình quản lý cụm (cluster manager), đánh giá lười (lazy evaluation), DAG và quy hoạch thực thi
- Sự khác biệt giữa các API RDD và DataFrame cũng như thời điểm nên áp dụng từng phương pháp
- Tạo và cấu hình SparkSession, đồng thời hiểu các nguyên tắc cơ bản về cấu hình ứng dụng
Module 2: PySpark DataFrames
- Đọc và ghi dữ liệu từ các nguồn và định dạng doanh nghiệp (CSV, JSON, Parquet, Delta)
- Làm việc với PySpark DataFrames: các phép biến đổi, hành động, biểu thức cột, lọc, nối (joins) và tổng hợp
- Triển khai các thao tác nâng cao như hàm cửa sổ (window functions), xử lý dấu thời gian và làm việc với dữ liệu lồng nhau
- Áp dụng các kiểm tra chất lượng dữ liệu và viết mã PySpark có thể tái sử dụng, dễ bảo trì
Module 3: Xử lý hiệu quả các tập dữ liệu lớn
- Hiểu các nguyên tắc cơ bản về hiệu suất: chiến lược phân vùng, hành vi trộn (shuffle), bộ nhớ đệm (caching) và bền vững (persistence)
- Sử dụng các kỹ thuật tối ưu hóa bao gồm broadcast joins và phân tích kế hoạch thực thi
- Xử lý hiệu quả các tập dữ liệu lớn và các phương pháp tốt nhất cho các quy trình dữ liệu có khả năng mở rộng
- Hiểu về sự tiến hóa của lược đồ (schema evolution) và các định dạng lưu trữ hiện đại được sử dụng trong môi trường doanh nghiệp
Module 4: Kỹ thuật đặc trưng ở quy mô lớn
- Thực hiện kỹ thuật đặc trưng với Spark MLlib: xử lý các giá trị bị thiếu, mã hóa các biến phân loại và chuẩn hóa đặc trưng
- Thiết kế các bước tiền xử lý có thể tái sử dụng và chuẩn bị tập dữ liệu cho các quy trình Học máy
- Giới thiệu về lựa chọn đặc trưng và xử lý các tập dữ liệu mất cân bằng
Module 5: Học máy với Spark MLlib
- Tìm hiểu kiến trúc MLlib và mô hình Estimator/Transformer
- Huấn luyện các mô hình hồi quy và phân loại ở quy mô lớn (Hồi quy tuyến tính, Hồi quy logistic, Cây quyết định, Rừng ngẫu nhiên)
- So sánh các mô hình và diễn giải kết quả trong các quy trình Học máy phân tán
Module 6: Quy trình ML hoàn chỉnh (End-to-End)
- Xây dựng quy trình Học máy hoàn chỉnh kết hợp tiền xử lý, kỹ thuật đặc trưng và mô hình hóa
- Áp dụng các chiến lược chia dữ liệu huấn luyện/kiểm định/kiểm tra
- Thực hiện xác thực chéo (cross-validation) và tinh chỉnh siêu tham số bằng tìm kiếm lưới (grid search) và tìm kiếm ngẫu nhiên (random search)
- Tổ chức các thí nghiệm Học máy có thể tái lập
Module 7: Đánh giá mô hình & Ra quyết định thực tiễn trong ML
- Áp dụng các chỉ số đánh giá phù hợp cho các bài toán hồi quy và phân loại
- Xác định hiện tượng quá khớp (overfitting) và dưới khớp (underfitting) cũng như đưa ra các quyết định lựa chọn mô hình thực tế
- Diễn giải tầm quan trọng của các đặc trưng và hiểu hành vi của mô hình
Module 8: Thực tiễn sản xuất & Doanh nghiệp
- Lưu trữ và tải mô hình trong Spark
- Triển khai các quy trình suy luận theo lô (batch inference) trên các tập dữ liệu lớn
- Hiểu vòng đời Học máy trong môi trường doanh nghiệp
- Giới thiệu về các khái niệm phiên bản hóa, theo dõi thí nghiệm và các chiến lược kiểm thử cơ bản
Kết quả thực tiễn
- Khả năng làm việc độc lập với PySpark
- Khả năng xử lý hiệu quả các tập dữ liệu lớn
- Khả năng thực hiện kỹ thuật đặc trưng ở quy mô lớn
- Khả năng xây dựng các quy trình Học máy có khả năng mở rộng
Yêu cầu
Người học cần có các kiến thức nền tảng sau:
Kiến thức lập trình Python cơ bản, bao gồm làm việc với hàm, cấu trúc dữ liệu và các thư viện
Hiểu biết cơ bản về các khái niệm phân tích dữ liệu như tập dữ liệu, biến đổi và tổng hợp
Kiến thức cơ bản về SQL và các khái niệm dữ liệu quan hệ
Hiểu biết sơ bộ về các khái niệm Học máy như tập dữ liệu huấn luyện, đặc trưng và các chỉ số đánh giá
Khuyến khích có kinh nghiệm làm việc với môi trường dòng lệnh và các phương pháp phát triển phần mềm cơ bản
Kinh nghiệm sử dụng Pandas, NumPy hoặc các thư viện xử lý dữ liệu tương tự là một lợi thế nhưng không bắt buộc.
Đánh giá (1)
Tôi thích vì nó thực tế. Tôi rất thích áp dụng kiến thức lý thuyết với các ví dụ thực tế.
Aurelia-Adriana - Allianz Services Romania
Khóa học - Python and Spark for Big Data (PySpark)
Dịch thuật bằng máy