Đề cương khóa học

Giới thiệu về Học Tăng Cường và AI Đại Diện

  • Quyết định trong điều kiện không chắc chắn và lập kế hoạch tuần tự
  • Các thành phần chính của RL: tác nhân, môi trường, trạng thái và phần thưởng
  • Vai trò của RL trong các hệ thống AI thích ứng và đại diện

Quá Trình Ra Quyết Định Markov (MDPs)

  • Định nghĩa chính thức và các tính chất của MDPs
  • Hàm giá trị, phương trình Bellman và lập trình động
  • Đánh giá chính sách, cải thiện và lặp lại

Học Tăng Cường Không Mô Hình

  • Học Monte Carlo và Temporal-Difference (TD)
  • Q-learning và SARSA
  • Thực hành: triển khai các phương pháp RL bảng trong Python

Học Tăng Cường Sâu

  • Kết hợp mạng nơron với RL để xấp xỉ hàm
  • Deep Q-Networks (DQN) và kinh nghiệm hồi cứu
  • Kiến trúc Actor-Critic và gradient chính sách
  • Thực hành: huấn luyện tác nhân sử dụng DQN và PPO với Stable-Baselines3

Chiến Lược Khám Phá và Định Hình Phần Thưởng

  • Cân bằng giữa khám phá và khai thác (ε-greedy, UCB, phương pháp entropy)
  • Thiết kế hàm phần thưởng và tránh hành vi không mong muốn
  • Định hình phần thưởng và học curriculum

Chủ Đề Nâng Cao trong RL và Quyết Định

  • Học tăng cường đa tác nhân và chiến lược hợp tác
  • Học tăng cường phân cấp và khung options
  • RL ngoại tuyến và học bắt chước cho triển khai an toàn hơn

Môi Trường Mô Phỏng và Đánh Giá

  • Sử dụng OpenAI Gym và môi trường tùy chỉnh
  • Không gian hành động liên tục vs. rời rạc
  • Các tiêu chí đánh giá hiệu suất, ổn định và hiệu quả mẫu của tác nhân

Tích Hợp RL vào Hệ Thống AI Đại Diện

  • Kết hợp lý luận và RL trong kiến trúc tác nhân hybrid
  • Tích hợp học tăng cường với các tác nhân sử dụng công cụ
  • Các xem xét vận hành cho việc mở rộng và triển khai

Dự Án Chốt Cuối Khóa

  • Thiết kế và triển khai một tác nhân học tăng cường cho nhiệm vụ mô phỏng
  • Phân tích hiệu suất huấn luyện và tối ưu hóa siêu tham số
  • Chứng minh hành vi thích ứng và quyết định trong bối cảnh AI đại diện

Tóm Tắt và Bước Kế Tiếp

Yêu cầu

  • Thành thạo lập trình Python
  • Hiểu rõ về các khái niệm học máy và học sâu
  • Quen thuộc với đại số tuyến tính, xác suất và phương pháp tối ưu hóa cơ bản

Đối Tượng

  • Kỹ sư học tăng cường và nhà nghiên cứu AI ứng dụng
  • Lập trình viên robot và tự động hóa
  • Nhóm kỹ thuật làm việc trên các hệ thống AI thích ứng và đại diện
 28 Giờ học

Số người tham gia


Giá cho mỗi người tham gia

Đánh giá (3)

Các khóa học sắp tới

Các danh mục liên quan