Войти
Курс
Big Data and Data Engineering
Андрей Жуков

В курсе мы рассмотрим наиболее популярный инструментарий для работы с большими данными в индустрии — экосистему Apache Hadoop. Студенты научатся эффективному использованию распределенной файловой системы HDFS, освоят парадигму MapReduce, перенесутся на следующий уровень абстракции на примере Apache Hive. Большая часть курса будет посвящена «лингва франка» современного мира больших данных — Apache Spark. Студенты научатся эффективно использовать как пакетный, так и потоковый режимы обработки. Освоят библиотеку машинного обучения Spark ML и тонкости распределенных алгоритмов машинного обучения. Часть занятий будет посвящена NoSQL подходу к хранению данных на примере Apache Cassandra и Apache HBase. Основой всего курса станет проект, в котором каждый студент сможет реализовать end-to-end конвейер получения, обработки и хранения больших данных.

Лектор
Программа курса
1
Распределенная файловая система HDFS
2
Парадигма MapReduce. Apache Hadoop
3
Использование SQL в Hadoop. Apache HIVE
4
Работа с Apache Spark. Spark SQL, Pyspark.
5
Работа со Spark UI, план запроса, оптимизация.
6
Работа со Spark ML
7
Работа с данными в реальном времени. Apache Kafka, Spark Streaming
8
Воспроизводимые ML эксперименты. MLflow
9
Оркестрация конвейеров данных. Apache Airflow
10
Форматы данных
11
Работа с качеством данных. Great Expectations