Đề cương khóa học
1. Giới thiệu về Deep Reinforcement Learning
- Reinforcement Learning là gì?
- Sự khác biệt giữa Supervised, Unsupervised, và Reinforcement Learning
- Ứng dụng của DRL vào năm 2025 (robotics, healthcare, finance, logistics)
- Hiểu biết về vòng lặp tương tác giữa agent và môi trường
2. Cơ sở lý thuyết của Reinforcement Learning
- Quy trình quyết định Markov (MDP)
- Trạng thái, hành động, thưởng, chính sách, và hàm giá trị
- Thương mại giữa khám phá và khai thác
- Phương pháp Monte Carlo và học Temporal-Difference (TD)
3. Triển khai các thuật toán Reinforcement Learning cơ bản
- Các phương pháp bảng: Dynamic Programming, đánh giá chính sách, và lặp đi lặp lại
- Q-Learning và SARSA
- Epsilon-greedy exploration và các chiến lược giảm dần
- Triển khai môi trường RL với OpenAI Gymnasium
4. Chuyển sang Deep Reinforcement Learning
- Ngăn cách của các phương pháp bảng
- Sử dụng mạng nơron để ước lượng hàm
- Kiến trúc và quy trình hoạt động của Deep Q-Network (DQN)
- Trải nghiệm tái sinh và mạng mục tiêu
5. Các thuật toán DRL nâng cao
- Double DQN, Dueling DQN, và Prioritized Experience Replay
- Phương pháp Gradient Policy: thuật toán REINFORCE
- Kiến trúc Actor-Critic (A2C, A3C)
- Proximal Policy Optimization (PPO)
- Soft Actor-Critic (SAC)
6. Làm việc với không gian hành động liên tục
- Thách thức trong kiểm soát liên tục
- Sử dụng DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Công cụ và khung làm việc thực tiễn
- Sử dụng Stable-Baselines3 và Ray RLlib
- Ghi nhật ký và giám sát với TensorBoard
- Cài đặt tham số cho các mô hình DRL
8. Kỹ thuật xây dựng hệ thống thưởng và thiết kế môi trường
- Xây dựng hệ thống thưởng và cân bằng hình phạt
- Khái niệm chuyển học từ mô phỏng sang thực tế
- Tạo môi trường tùy chỉnh trong Gymnasium
9. Môi trường không hoàn toàn quan sát và khả năng tổng hợp
- Xử lý thông tin trạng thái không hoàn chỉnh (POMDPs)
- Các phương pháp dựa trên bộ nhớ sử dụng LSTMs và RNNs
- Cải thiện khả năng kháng cự và tổng hợp của agent
10. Lý thuyết trò chơi và Reinforcement Learning đa agent
- Giới thiệu môi trường đa agent
- Sự hợp tác và cạnh tranh
- Ứng dụng trong đào tạo đối kháng và tối ưu hóa chiến lược
11. Các nghiên cứu và ứng dụng thực tế
- Mô phỏng lái xe tự động
- Xác định giá và chiến lược giao dịch tài chính
- Robot học và tự động hóa công nghiệp
12. Sửa lỗi và tối ưu hóa
- Chẩn đoán đào tạo không ổn định
- Quản lý sự khan hiếm hệ thống thưởng và quá khớp
- Phóng to các mô hình DRL trên GPU và hệ thống phân tán
13. Tổng kết và các bước tiếp theo
- Tóm tắt kiến trúc DRL và các thuật toán chính
- Xu hướng ngành và hướng nghiên cứu (ví dụ: RLHF, các mô hình hỗn hợp)
- Nguồn tài liệu và thêm các tài liệu tham khảo
Yêu cầu
- Nâng cao trình độ lập trình Python
- Hiểu biết về Giải tích và Đại số tuyến tính
- Kiến thức cơ bản về Xác suất và Thống kê
- Kinh nghiệm xây dựng mô hình học máy bằng Python và NumPy hoặc TensorFlow/PyTorch
Đối tượng
- Nhà phát triển quan tâm đến AI và hệ thống thông minh
- Nhà khoa học dữ liệu đang tìm hiểu khung học mạnh tăng cường
- Kỹ sư học máy làm việc với các hệ thống tự động
Đánh giá (5)
Hunter thật xuất sắc, rất cuốn hút, cực kỳ am hiểu và thân thiện. Rất tốt indeed. (Note: "Rất tốt indeed" keeps the original English word "indeed" as it doesn't have a direct translation that conveys the same emphasis in Vietnamese. However, for better flow in Vietnamese, we can omit "indeed".) Hunter thật xuất sắc, rất cuốn hút, cực kỳ am hiểu và thân thiện. Rất tốt.
Rick Johnson - Laramie County Community College
Khóa học - Artificial Intelligence (AI) Overview
Dịch thuật bằng máy
Very flexible.
Frank Ueltzhoffer
Khóa học - Artificial Neural Networks, Machine Learning and Deep Thinking
Dịch thuật bằng máy
I liked the new insights in deep machine learning.
Josip Arneric
Khóa học - Neural Network in R
Dịch thuật bằng máy
Ann created a great environment to ask questions and learn. We had a lot of fun and also learned a lot at the same time.
Gudrun Bickelq
Khóa học - Introduction to the use of neural networks
Dịch thuật bằng máy
It was very interactive and more relaxed and informal than expected. We covered lots of topics in the time and the trainer was always receptive to talking more in detail or more generally about the topics and how they were related. I feel the training has given me the tools to continue learning as opposed to it being a one off session where learning stops once you've finished which is very important given the scale and complexity of the topic.
Jonathan Blease
Khóa học - Artificial Neural Networks, Machine Learning, Deep Thinking
Dịch thuật bằng máy