В курсе мы рассмотрим наиболее популярный инструментарий для работы с большими данными в индустрии – экосистему Apache Hadoop. Студенты научатся эффективному использованию распределенной файловой системы HDFS, освоят парадигму MapReduce, перенесутся на следующий уровень абстракции на примере Apache Hive. Большая часть курса будет посвящена «лингва франка» современного мира больших данных – Apache Spark. Студенты научатся эффективно использовать как пакетный, так и потоковый режимы обработки. Освоят библиотеку машинного обучения Spark ML и тонкости распределенных алгоритмов машинного обучения. Часть занятий будет посвящена NoSQL подходу к хранению данных на примере Apache Cassandra и Apache HBase. Основой всего курса станет проект, в котором каждый студент сможет реализовать end-to-end конвейер получения, обработки и хранения больших данных.