Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Đề cương khóa học
Giới thiệu
- Học thông qua củng cố tích cực
Elements của Reinforcement Learning
Các Thuật Ngữ Quan Trọng (Hành động, Trạng thái, Phần thưởng, Chính sách, Giá trị, Giá trị Q, v.v.)
Tổng quan về các Phương pháp Giải pháp Bảng
Tạo một Tác nhân Phần mềm
Hiểu các Phương pháp Dựa trên Giá trị, Dựa trên Chính sách và Dựa trên Mô hình
Làm việc với Quá trình Quyết định Markov (MDP)
Cách Chính sách Xác định Cách Tác nhân Hành xử
Sử dụng Phương pháp Monte Carlo
Học Sự khác biệt Thời gian
n-bước Bootstrapping
Các Phương pháp Giải pháp Xấp xỉ
Dự đoán On-policy với Xấp xỉ
Kiểm soát On-policy với Xấp xỉ
Các Phương pháp Off-policy với Xấp xỉ
Hiểu các Dấu vết Đủ điều kiện
Sử dụng Phương pháp Gradient Chính sách
Tóm tắt và Kết luận
Requirements
- Có kinh nghiệm về học máy
- Programming kinh nghiệm
Đối tượng
- Nhà khoa học dữ liệu
21 Hours