Цель курса "Обучение с подкреплением" познакомить студентов с основными формализмами и идеями в этой области, но в тоже время дать возможность собственноручно реализовать некоторые из state-of-the-art алгоритмов глубокого RL. Курс состоит из двух частей. В первой части слушатели познакомятся с теоретическими основами RL на игрушечных примерах. Во второй части мы сосредоточимся на нейросетевых методах, которые позволяют применить RL для куда более сложных задач.
Обучение с подкреплением – это обучение тому, что делать, т.е. как отобразить ситуации на действия, чтобы максимизировать численный сигнал – вознаграждение. Обучаемому агенту не доступна информация о том, какие действия являются правильными; он должен установить, какие действия приносят максимальное вознаграждение на основе собственного опыта. В наиболее интересных и трудных случаях действия могут влиять не только на непосредственное вознаграждение, но и на следующую ситуацию, а значит, на все последующие вознаграждения. Эти две характеристики – поиск методом проб и ошибок и отложенное вознаграждение – значительно отличают RL задачу от классической задачи обучения с учителем.