Войти
Курс
LLM — от NLP
до мультимодальных агентов

Курс посвящён большим языковым моделям (LLM) и современным мультимодальным моделям, предназначенным для обработки данных различных модальностей, включая текст, изображения, видео, звук, 3D-данные и действия. Рассматриваются принципы представления текстовых данных, языкового моделирования и архитектуры трансформеров, а также подходы к предобучению, дообучению и адаптации LLM, включая методы RLHF и retrieval-augmented generation (RAG).


В рамках курса изучаются архитектуры мультимодальных моделей, объединяющих языковые и визуальные представления, методы анализа и генерации изображений и видео, а также подходы к созданию мультимодальных моделей для робототехники и агентных систем. Отдельное внимание уделяется моделям для работы с 3D-данными и аудиомодальностью.


Занятия будут проводиться в формате лекций и семинаров с практическими домашними заданиями на Python.

Лектор
Программа курса
  • 1
    Word embeddings and classification & Language Modelling
  • 2
    Seq2seq and attention and transformer (MoE, Attention types)
  • 3
    Pretraining, SFT, RLHF & PEFT, LoRA
  • 4
    Reasoning & RAG
  • 5
    Введение и модальность изображений
  • 6
    Понимание видео
  • 7
    VLLM и генерация данных
  • 8
    Модальность action (UI и роботы)
  • 9
    Мультимодальные агенты
  • 10
    Модальность звука