Học tăng cường -Reinforcement Learning - là gì? (06/06/2017)
 
Học tăng cường là tổ hợp của a) vấn đề, b) một lớp các giải pháp cho nhóm các vấn đề này, và c) lĩnh vực của các vấn đề cùng các giải pháp tương ứng.

Học tập tăng cường gồm phải làm gì - làm thế nào để lập bản đồ hành động ứng với tình huống - để tối đa hóa mục tiêu hay phần thưởng (thường là trong một quá trình sau thời điểm hiện tại). Đây là một quá trình khép kín bởi vì các hành động của hệ thống ảnh hưởng đến các đầu vào của nó sau này. Hơn nữa, hệ thống không được biết những hành động nào cần làm, như trong nhiều hình thức học máy (machine learning), mà phải khám phá ra hành động nào mang lại phần thưởng lớn nhất bằng cách thử chúng. Mặt khác, hành động có thể ảnh hưởng không chỉ đến phần thưởng tức thời mà còn là tình huống, trạng thái tiếp theo, và qua đó là những phần thưởng tiếp theo. Ba đặc điểm này là ba đặc điểm phân biệt quan trọng nhất của học tập tăng cường.

Ý tưởng cơ bản của học tập tăng cường theo thuật ngữ điều khiển tối ưu MDPs (Markov decision processes) là nắm bắt các khía cạnh quan trọng nhất của vấn đề khi tương tác với môi trường để đạt được mục tiêu càng cao càng tốt (không có nghĩa là “tối ưu”). Rõ ràng, một hệ thống như vậy phải có khả năng cảm nhận được trạng thái của môi trường ở một mức độ nào đó, và phải có khả năng hành động để tác động lên trạng thái đó. Hệ thống cũng phải có một mục tiêu (hoặc các mục tiêu) liên quan đến trạng thái của môi trường.

Một trong những thách thức của học tăng cường, không có trong các loại học khác, là sự đánh đổi giữa thăm dò (exploration) và khai thác (exploitation). Để có được nhiều phần thưởng, một hệ thống học tăng cường sẽ sử dụng những hành động có hiệu quả mà nó đã thực hiện trong quá khứ. Nhưng để khám phá ra những hành động như vậy, nó phải thử những hành động mà nó chưa làm trước đây, từ đó có thể lựa chọn hành động tốt hơn trong tương lai. Thông thường, mỗi hành động phải được thử nhiều lần để đạt được một mức độ tin cậy nhất định về phần thưởng tương ứng của nó.

Một hệ thống học tăng cường, tương tác với môi trường, hướng mục tiêu không có nghĩa là một hệ thống hoạt động tách biệt hay một robot độc lập. Nó có thể là một thành phần của một hệ thống lớn hơn. Trong trường hợp này, hệ thống học tăng cường tương tác trực tiếp với phần còn lại của hệ thống lớn hơn, và qua đó gián tiếp tương tác với môi trường.

Trích “Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto, 2016”


Tin mới
Đăng ký môn học trực tuyến