Đề cương khóa học
Machine Learning Giới thiệu
- Các loại học máy – giám sát vs không giám sát
- Từ học thống kê đến học máy
- Quá trình khai thác dữ liệu: hiểu biết kinh doanh, chuẩn bị dữ liệu, mô hình hóa, triển khai
- Lựa chọn thuật toán phù hợp cho nhiệm vụ
- Quá mức khớp và sự trade-off giữa sai số và phương sai
Python và Tổng quan về Thư viện ML
- Tại sao sử dụng ngôn ngữ lập trình cho ML
- Lựa chọn giữa R và Python
- Hướng dẫn nhanh về Python và Jupyter Notebooks
- Thư viện của Python: pandas, NumPy, scikit-learn, matplotlib, seaborn
Kiểm thử và Đánh giá Thuật toán ML
- Tổng quát hóa, quá mức khớp và xác thực mô hình
- Các chiến lược đánh giá: holdout, cross-validation, bootstrapping
- Métrics cho hồi quy: ME, MSE, RMSE, MAPE
- Métrics cho phân loại: độ chính xác, ma trận hỗn loạn, lớp không cân bằng
- Biểu đồ hóa hiệu suất mô hình: đường cong lợi nhuận, ROC curve, lift curve
- Lựa chọn và điều chỉnh mô hình với grid search
Chuẩn bị Dữ liệu
- Nhập dữ liệu và lưu trữ trong Python
- Phân tích khám phá và thống kê tóm tắt
- Xử lý giá trị thiếu và ngoại lệ
- Quy chuẩn hóa, chuẩn hóa và biến đổi
- Lưu ý về dữ liệu định tính và xử lý dữ liệu với pandas
Các Thuật toán Phân loại
- Phân loại nhị phân vs đa lớp
- Hồi quy logistic và hàm phân biệt
- Naïve Bayes, k-nearest neighbors
- Cây quyết định: CART, Random Forests, Bagging, Boosting, XGBoost
- Máy Vectơ Hỗ trợ và nhân
- Kỹ thuật học tập hợp
Hồi quy và Dự đoán Số học
- Phương pháp bình phương tối thiểu và lựa chọn biến
- Các phương pháp chính quy hóa: L1, L2
- Hồi quy đa thức và mô hình không tuyến tính
- Cây hồi quy và splines
Neural Networks
- Giới thiệu về mạng nơ-ron và học sâu
- Hàm kích hoạt, lớp và backpropagation
- Multilayer perceptrons (MLP)
- Sử dụng TensorFlow hoặc PyTorch để mô hình hóa mạng nơ-ron cơ bản
- Mạng nơ-ron cho phân loại và hồi quy
Dự đoán Bán hàng Forecasting và Predictive Analytics
- Dự báo chuỗi thời gian vs dự báo dựa trên hồi quy
- Xử lý dữ liệu theo mùa và xu hướng
- Tạo mô hình dự đoán bán hàng sử dụng kỹ thuật ML
- Đánh giá độ chính xác và không chắc chắn của dự báo
- Giải thích và truyền đạt kết quả Business
Unsupervised Learning
- Các kỹ thuật phân cụm: k-means, k-medoids, phân cụm hiérarchique, SOMs
- Giảm chiều: PCA, phân tích nhân tố, SVD
- Multidimensional scaling
Khai thác Văn bản
- Xử lý văn bản tiền xử lý và tokenization
- Bao gồm từ, stemming, và lemmatization
- Phân tích cảm xúc và tần suất từ
- Biểu đồ hóa dữ liệu văn bản bằng word clouds
Hệ thống Đề xuất
- Cộng tác lọc dựa trên người dùng và dựa trên mục
- Lập trình và đánh giá hệ thống đề xuất
Mining Mẫu Liên kết
- Tập hợp mục thường xuyên và thuật toán Apriori
- Phân tích giỏ hàng thị trường và tỷ lệ lift
Dự đoán ngoại lệ
- Phân tích giá trị cực đoan
- Các phương pháp dựa trên khoảng cách và mật độ
- Xác định ngoại lệ trong dữ liệu đa chiều cao
Machine Learning Trường hợp nghiên cứu
- Hiểu vấn đề kinh doanh
- Chuẩn bị dữ liệu và công trình tính năng
- Lựa chọn mô hình và điều chỉnh tham số
- Đánh giá và trình bày kết quả
- Triển khai
Tóm tắt và Bước kế tiếp
Requirements
- Có kiến thức cơ bản về các khái niệm học máy như học có giám sát và học không giám sát
- Quen thuộc với lập trình Python (biến, vòng lặp, hàm)
- Kinh nghiệm xử lý dữ liệu bằng thư viện như pandas hoặc NumPy sẽ hữu ích nhưng không bắt buộc
- Không yêu cầu có kinh nghiệm trước đó về mô hình hóa nâng cao hay mạng neural
Đối tượng tham gia
- Nhà khoa học dữ liệu
- Người phân tích Business
- Các kỹ sư phần mềm và chuyên viên kỹ thuật làm việc với dữ liệu
Testimonials (2)
the ML ecosystem not only MLFlow but Optuna, hyperops, docker , docker-compose
Guillaume GAUTIER - OLEA MEDICAL
Course - MLflow
I enjoyed participating in the Kubeflow training, which was held remotely. This training allowed me to consolidate my knowledge for AWS services, K8s, all the devOps tools around Kubeflow which are the necessary bases to properly tackle the subject. I wanted to thank Malawski Marcin for his patience and professionalism for training and advice on best practices. Malawski approaches the subject from different angles, different deployment tools Ansible, EKS kubectl, Terraform. Now I am definitely convinced that I am going into the right field of application.