Đề cương khóa học
Giới thiệu về Học Tăng Cường và AI Đại Diện
- Quyết định trong điều kiện không chắc chắn và lập kế hoạch tuần tự
- Các thành phần chính của RL: tác nhân, môi trường, trạng thái và phần thưởng
- Vai trò của RL trong các hệ thống AI thích ứng và đại diện
Quá Trình Ra Quyết Định Markov (MDPs)
- Định nghĩa chính thức và các tính chất của MDPs
- Hàm giá trị, phương trình Bellman và lập trình động
- Đánh giá chính sách, cải thiện và lặp lại
Học Tăng Cường Không Mô Hình
- Học Monte Carlo và Temporal-Difference (TD)
- Q-learning và SARSA
- Thực hành: triển khai các phương pháp RL bảng trong Python
Học Tăng Cường Sâu
- Kết hợp mạng nơron với RL để xấp xỉ hàm
- Deep Q-Networks (DQN) và kinh nghiệm hồi cứu
- Kiến trúc Actor-Critic và gradient chính sách
- Thực hành: huấn luyện tác nhân sử dụng DQN và PPO với Stable-Baselines3
Chiến Lược Khám Phá và Định Hình Phần Thưởng
- Cân bằng giữa khám phá và khai thác (ε-greedy, UCB, phương pháp entropy)
- Thiết kế hàm phần thưởng và tránh hành vi không mong muốn
- Định hình phần thưởng và học curriculum
Chủ Đề Nâng Cao trong RL và Quyết Định
- Học tăng cường đa tác nhân và chiến lược hợp tác
- Học tăng cường phân cấp và khung options
- RL ngoại tuyến và học bắt chước cho triển khai an toàn hơn
Môi Trường Mô Phỏng và Đánh Giá
- Sử dụng OpenAI Gym và môi trường tùy chỉnh
- Không gian hành động liên tục vs. rời rạc
- Các tiêu chí đánh giá hiệu suất, ổn định và hiệu quả mẫu của tác nhân
Tích Hợp RL vào Hệ Thống AI Đại Diện
- Kết hợp lý luận và RL trong kiến trúc tác nhân hybrid
- Tích hợp học tăng cường với các tác nhân sử dụng công cụ
- Các xem xét vận hành cho việc mở rộng và triển khai
Dự Án Chốt Cuối Khóa
- Thiết kế và triển khai một tác nhân học tăng cường cho nhiệm vụ mô phỏng
- Phân tích hiệu suất huấn luyện và tối ưu hóa siêu tham số
- Chứng minh hành vi thích ứng và quyết định trong bối cảnh AI đại diện
Tóm Tắt và Bước Kế Tiếp
Yêu cầu
- Thành thạo lập trình Python
- Hiểu rõ về các khái niệm học máy và học sâu
- Quen thuộc với đại số tuyến tính, xác suất và phương pháp tối ưu hóa cơ bản
Đối Tượng
- Kỹ sư học tăng cường và nhà nghiên cứu AI ứng dụng
- Lập trình viên robot và tự động hóa
- Nhóm kỹ thuật làm việc trên các hệ thống AI thích ứng và đại diện
Đánh giá (3)
Phối hợp tốt giữa kiến thức và thực hành
Ion Mironescu - Facultatea S.A.I.A.P.M.
Khóa học - Agentic AI for Enterprise Applications
Dịch thuật bằng máy
Sự kết hợp giữa lý thuyết và thực hành, giữa góc nhìn cấp cao và cấp thấp
Ion Mironescu - Facultatea S.A.I.A.P.M.
Khóa học - Autonomous Decision-Making with Agentic AI
Dịch thuật bằng máy
bài tập thực hành
Daniel - Facultatea S.A.I.A.P.M.
Khóa học - Agentic AI in Multi-Agent Systems
Dịch thuật bằng máy