Đề cương khóa học

1. Giới thiệu về Deep Reinforcement Learning

  • Reinforcement Learning là gì?
  • Sự khác biệt giữa Supervised, Unsupervised, và Reinforcement Learning
  • Ứng dụng của DRL vào năm 2025 (robotics, healthcare, finance, logistics)
  • Hiểu biết về vòng lặp tương tác giữa agent và môi trường

2. Cơ sở lý thuyết của Reinforcement Learning

  • Quy trình quyết định Markov (MDP)
  • Trạng thái, hành động, thưởng, chính sách, và hàm giá trị
  • Thương mại giữa khám phá và khai thác
  • Phương pháp Monte Carlo và học Temporal-Difference (TD)

3. Triển khai các thuật toán Reinforcement Learning cơ bản

  • Các phương pháp bảng: Dynamic Programming, đánh giá chính sách, và lặp đi lặp lại
  • Q-Learning và SARSA
  • Epsilon-greedy exploration và các chiến lược giảm dần
  • Triển khai môi trường RL với OpenAI Gymnasium

4. Chuyển sang Deep Reinforcement Learning

  • Ngăn cách của các phương pháp bảng
  • Sử dụng mạng nơron để ước lượng hàm
  • Kiến trúc và quy trình hoạt động của Deep Q-Network (DQN)
  • Trải nghiệm tái sinh và mạng mục tiêu

5. Các thuật toán DRL nâng cao

  • Double DQN, Dueling DQN, và Prioritized Experience Replay
  • Phương pháp Gradient Policy: thuật toán REINFORCE
  • Kiến trúc Actor-Critic (A2C, A3C)
  • Proximal Policy Optimization (PPO)
  • Soft Actor-Critic (SAC)

6. Làm việc với không gian hành động liên tục

  • Thách thức trong kiểm soát liên tục
  • Sử dụng DDPG (Deep Deterministic Policy Gradient)
  • Twin Delayed DDPG (TD3)

7. Công cụ và khung làm việc thực tiễn

  • Sử dụng Stable-Baselines3 và Ray RLlib
  • Ghi nhật ký và giám sát với TensorBoard
  • Cài đặt tham số cho các mô hình DRL

8. Kỹ thuật xây dựng hệ thống thưởng và thiết kế môi trường

  • Xây dựng hệ thống thưởng và cân bằng hình phạt
  • Khái niệm chuyển học từ mô phỏng sang thực tế
  • Tạo môi trường tùy chỉnh trong Gymnasium

9. Môi trường không hoàn toàn quan sát và khả năng tổng hợp

  • Xử lý thông tin trạng thái không hoàn chỉnh (POMDPs)
  • Các phương pháp dựa trên bộ nhớ sử dụng LSTMs và RNNs
  • Cải thiện khả năng kháng cự và tổng hợp của agent

10. Lý thuyết trò chơi và Reinforcement Learning đa agent

  • Giới thiệu môi trường đa agent
  • Sự hợp tác và cạnh tranh
  • Ứng dụng trong đào tạo đối kháng và tối ưu hóa chiến lược

11. Các nghiên cứu và ứng dụng thực tế

  • Mô phỏng lái xe tự động
  • Xác định giá và chiến lược giao dịch tài chính
  • Robot học và tự động hóa công nghiệp

12. Sửa lỗi và tối ưu hóa

  • Chẩn đoán đào tạo không ổn định
  • Quản lý sự khan hiếm hệ thống thưởng và quá khớp
  • Phóng to các mô hình DRL trên GPU và hệ thống phân tán

13. Tổng kết và các bước tiếp theo

  • Tóm tắt kiến trúc DRL và các thuật toán chính
  • Xu hướng ngành và hướng nghiên cứu (ví dụ: RLHF, các mô hình hỗn hợp)
  • Nguồn tài liệu và thêm các tài liệu tham khảo

Yêu cầu

  • Nâng cao trình độ lập trình Python
  • Hiểu biết về Giải tích và Đại số tuyến tính
  • Kiến thức cơ bản về Xác suất và Thống kê
  • Kinh nghiệm xây dựng mô hình học máy bằng Python và NumPy hoặc TensorFlow/PyTorch

Đối tượng

  • Nhà phát triển quan tâm đến AI và hệ thống thông minh
  • Nhà khoa học dữ liệu đang tìm hiểu khung học mạnh tăng cường
  • Kỹ sư học máy làm việc với các hệ thống tự động
 21 Giờ học

Số người tham gia


Giá cho mỗi người tham gia

Đánh giá (5)

Các khóa học sắp tới

Các danh mục liên quan