Войти
Курс
Advanced Reinforcement Learning

Курс посвящен ключевому направлению искусственного интеллекта — обучению агента взаимодействовать со средой для максимизации целевой функции. В рамках курса изучаются как классические методы, основанные на функции полезности и градиенте стратегии, так и современные подходы, направленные на повышение эффективности исследования среды, интеграцию с планированием, обучение на основе демонстраций и многоагентные системы.


Цель курса — познакомить студентов с основными концепциями и формальными моделями обучения с подкреплением, а также дать практический опыт в реализации современных глубоких RL-алгоритмов. Курс состоит из двух частей: в первой студенты изучат теоретические основы RL на простых примерах, а во второй — погрузятся в нейросетевые методы, позволяющие применять RL к более сложным задачам.


Обучение с подкреплением — это процесс обучения агента стратегии выбора действий, максимизирующей численный сигнал — вознаграждение. В отличие от обучения с учителем, агент не получает информацию о правильных действиях заранее; он должен выявить их самостоятельно, методом проб и ошибок. Именно этот поиск, а также концепция отложенного вознаграждения, принципиально отличают задачи RL от классических задач машинного обучения.

Лектор
Программа курса
1
Введение, Марковский процесс принятия решений
2
Динамическое программирование
3
Временные различия
4
Аппроксимация, глубокая Q-сеть, расширения Rainbow
5
Оптимизации градиента стратегии, Актор-критик (PG, REINFORCE, A2C)
6
Продвинутые Актор-Критик методы (TRPO, PPO, GAE)
7
Непрерывное пространство действий (DDPG, SAC)
8
Многоагентное обучение с подкреплением (IDQN, IPPO, QMIX, MAPPO)
9
Обучение по демонстрациям. Трансформеры в RL
10
Интеграция обучения с подкреплением и планирования
11
Transfer RL, Meta RL