Курс посвящен ключевому направлению искусственного интеллекта — обучению агента взаимодействовать со средой для максимизации целевой функции. В рамках курса изучаются как классические методы, основанные на функции полезности и градиенте стратегии, так и современные подходы, направленные на повышение эффективности исследования среды, интеграцию с планированием, обучение на основе демонстраций и многоагентные системы.
Цель курса — познакомить студентов с основными концепциями и формальными моделями обучения с подкреплением, а также дать практический опыт в реализации современных глубоких RL-алгоритмов. Курс состоит из двух частей: в первой студенты изучат теоретические основы RL на простых примерах, а во второй — погрузятся в нейросетевые методы, позволяющие применять RL к более сложным задачам.
Обучение с подкреплением — это процесс обучения агента стратегии выбора действий, максимизирующей численный сигнал — вознаграждение. В отличие от обучения с учителем, агент не получает информацию о правильных действиях заранее; он должен выявить их самостоятельно, методом проб и ошибок. Именно этот поиск, а также концепция отложенного вознаграждения, принципиально отличают задачи RL от классических задач машинного обучения.