Đề cương khóa học

Giới thiệu

  • Học thông qua củng cố tích cực

Elements của Reinforcement Learning

Các Thuật Ngữ Quan Trọng (Hành động, Trạng thái, Phần thưởng, Chính sách, Giá trị, Giá trị Q, v.v.)

Tổng quan về các Phương pháp Giải pháp Bảng

Tạo một Tác nhân Phần mềm

Hiểu các Phương pháp Dựa trên Giá trị, Dựa trên Chính sách và Dựa trên Mô hình

Làm việc với Quá trình Quyết định Markov (MDP)

Cách Chính sách Xác định Cách Tác nhân Hành xử

Sử dụng Phương pháp Monte Carlo

Học Sự khác biệt Thời gian

n-bước Bootstrapping

Các Phương pháp Giải pháp Xấp xỉ

Dự đoán On-policy với Xấp xỉ

Kiểm soát On-policy với Xấp xỉ

Các Phương pháp Off-policy với Xấp xỉ

Hiểu các Dấu vết Đủ điều kiện

Sử dụng Phương pháp Gradient Chính sách

Tóm tắt và Kết luận

Requirements

  • Có kinh nghiệm về học máy
  • Programming kinh nghiệm

Đối tượng

  • Nhà khoa học dữ liệu
 21 Hours

Number of participants


Price per participant

Provisional Upcoming Courses (Require 5+ participants)

Related Categories