Big Data and Data Engineering

Войти

Вопросы

Курсы

Курс

Андрей Жуков

В курсе мы рассмотрим наиболее популярный инструментарий для работы с большими данными в индустрии — экосистему Apache Hadoop. Студенты научатся эффективному использованию распределенной файловой системы HDFS, освоят парадигму MapReduce, перенесутся на следующий уровень абстракции на примере Apache Hive. Большая часть курса будет посвящена «лингва франка» современного мира больших данных — Apache Spark. Студенты научатся эффективно использовать как пакетный, так и потоковый режимы обработки. Освоят библиотеку машинного обучения Spark ML и тонкости распределенных алгоритмов машинного обучения. Часть занятий будет посвящена NoSQL подходу к хранению данных на примере Apache Cassandra и Apache HBase. Основой всего курса станет проект, в котором каждый студент сможет реализовать end-to-end конвейер получения, обработки и хранения больших данных.

Лектор

Программа курса

Распределенная файловая система HDFS

Парадигма MapReduce. Apache Hadoop

Использование SQL в Hadoop. Apache HIVE

Работа с Apache Spark. Spark SQL, Pyspark.

Работа со Spark UI, план запроса, оптимизация.

Работа со Spark ML

Работа с данными в реальном времени. Apache Kafka, Spark Streaming

Воспроизводимые ML эксперименты. MLflow

Оркестрация конвейеров данных. Apache Airflow

Форматы данных

Работа с качеством данных. Great Expectations

Aimasters 2023 © All Rights Reserved. aimasters.msu@gmail.com Персональные данные опубликованы в соответствии со ст.10.1 Федерального закона РФ № 152-ФЗ от 27 июля 2006г. «О персональных данных» с согласия субъекта. Какая-либо иная обработка, в том числе, дальнейшее распространение персональных данных третьими лицами запрещена.

Дизайн и разработка / Василий Конкрет

Мы собираем данные Cookies. Оставаясь на сайте, вы соглашаетесь с нашей политикой сбора и обработки персональных данных.

ок