Курс посвящён большим языковым моделям (LLM) и современным мультимодальным моделям, предназначенным для обработки данных различных модальностей, включая текст, изображения, видео, звук, 3D-данные и действия. Рассматриваются принципы представления текстовых данных, языкового моделирования и архитектуры трансформеров, а также подходы к предобучению, дообучению и адаптации LLM, включая методы RLHF и retrieval-augmented generation (RAG).
В рамках курса изучаются архитектуры мультимодальных моделей, объединяющих языковые и визуальные представления, методы анализа и генерации изображений и видео, а также подходы к созданию мультимодальных моделей для робототехники и агентных систем. Отдельное внимание уделяется моделям для работы с 3D-данными и аудиомодальностью.
Занятия будут проводиться в формате лекций и семинаров с практическими домашними заданиями на Python.