Cảm ơn bạn đã gửi yêu cầu! Một thành viên trong đội ngũ của chúng tôi sẽ liên hệ với bạn ngay lập tức.
Cảm ơn bạn đã gửi đặt chỗ! Một thành viên trong đội ngũ của chúng tôi sẽ liên hệ với bạn ngay lập tức.
Đề cương khóa học
Giới thiệu
- Học thông qua củng cố tích cực
Elements của Reinforcement Learning
Các Thuật Ngữ Quan Trọng (Hành động, Trạng thái, Phần thưởng, Chính sách, Giá trị, Giá trị Q, v.v.)
Tổng quan về các Phương pháp Giải pháp Bảng
Tạo một Tác nhân Phần mềm
Hiểu các Phương pháp Dựa trên Giá trị, Dựa trên Chính sách và Dựa trên Mô hình
Làm việc với Quá trình Quyết định Markov (MDP)
Cách Chính sách Xác định Cách Tác nhân Hành xử
Sử dụng Phương pháp Monte Carlo
Học Sự khác biệt Thời gian
n-bước Bootstrapping
Các Phương pháp Giải pháp Xấp xỉ
Dự đoán On-policy với Xấp xỉ
Kiểm soát On-policy với Xấp xỉ
Các Phương pháp Off-policy với Xấp xỉ
Hiểu các Dấu vết Đủ điều kiện
Sử dụng Phương pháp Gradient Chính sách
Tóm tắt và Kết luận
Yêu cầu
- Có kinh nghiệm về học máy
- Programming kinh nghiệm
Đối tượng
- Nhà khoa học dữ liệu
21 Giờ học