LLM - от NLP до мультимодальных агентов

Войти

программа

Курс

LLM — от NLP
до мультимодальных агентов

Курс посвящён большим языковым моделям (LLM) и современным мультимодальным моделям, предназначенным для обработки данных различных модальностей, включая текст, изображения, видео, звук, 3D-данные и действия. Рассматриваются принципы представления текстовых данных, языкового моделирования и архитектуры трансформеров, а также подходы к предобучению, дообучению и адаптации LLM, включая методы RLHF и retrieval-augmented generation (RAG).

В рамках курса изучаются архитектуры мультимодальных моделей, объединяющих языковые и визуальные представления, методы анализа и генерации изображений и видео, а также подходы к созданию мультимодальных моделей для робототехники и агентных систем. Отдельное внимание уделяется моделям для работы с 3D-данными и аудиомодальностью.

Занятия будут проводиться в формате лекций и семинаров с практическими домашними заданиями на Python.

Лектор

Программа курса

1

Word embeddings and classification & Language Modelling
2

Seq2seq and attention and transformer (MoE, Attention types)
3

Pretraining, SFT, RLHF & PEFT, LoRA
4

Reasoning & RAG
5

Введение и модальность изображений
6

Понимание видео
7

VLLM и генерация данных
8

Модальность action (UI и роботы)
9

Мультимодальные агенты
10

Модальность звука