Aplikace Big Data technologií v Data Science

Cílem je naučit studenty na konkrétních úlohách, jak používat Big Data technologie z rodiny Hadoop a Spark pro analýzu a zpracování velkých dat.

Předmět odráží zkušenosti z reálných Data Science projektů z oblasti bankovnictví, telekomunikací a IoT. V průběhu semestru studenti získají přístup na Metacentrum Hadoop Cluster a naučí se vytvářet velké výpočetní úlohy.


Semestr:

MFF UK v Praze – letní

Informace pro posluchače:

První týden výuky je 18.–22. 2., poslední týden 22.–26. 5. 2019.

Výuka probíhá v pátek v učebně SW2, a to sudý kalendářní týden 9.00–10.30 a 10.40–12.10, lichý kalendářní týden jen 10.40–12.10.

Sylabus:

https://is.cuni.cz/studium/predmety/index.php?do=predmet&kod=NDBI047

Uzavření předmětu:

Zápočet a zkouška

Zápočet bude udělen za kombinaci testu a vypracování zápočtové úlohy, zaměřené na netriviální analýzu většího datového souboru.

Zkouška prověřuje teoretické znalosti o Hadoopu i o jednotlivých komponentách.


Osnova přednášek a cvičení

Přednáška 1: Úvod do Hadoopu, přínos Big Data technologií v Data Science úlohách

Cvičení 1 + 2: První kroky na clusteru, základní nástroje

Přednáška 2: Storage, distribuované uložení dat v HDFS, technologie Hive

Cvičení 3 + 4: Technologie HDFS, Hive, HQL

Přednáška 3: Apache Spark, výpočty typu Map/Reduce v RAM

Cvičení 5 + 6: Spark RDD a Spark Data Frame paradigma

Přednáška 4: Proudové zpracování dat, algoritmy a technologie

Cvičení 7 + 8: Spark Streaming, Kafka

Přednáška 5: Data Science, modelování příznaků v kontextu velkých dat

Cvičení 9 + 10: modelování příznaků, Spark ML, GraphX

Přednáška 6: Metodika vypracování zápočtové úlohy

Cvičení 11 + 12: práce s počítači, zápočtový test

Poznámka: Vzhledem k umístění celé výuky do laboratoře nebudou striktně odděleny přednášky a cvičení.