Cílem je naučit studenty na konkrétních úlohách, jak používat Big Data technologie z rodiny Hadoop a Spark pro analýzu a zpracování velkých dat.
Předmět odráží zkušenosti z reálných Data Science projektů z oblasti bankovnictví, telekomunikací a IoT. V průběhu semestru studenti získají přístup na Metacentrum Hadoop Cluster a naučí se vytvářet velké výpočetní úlohy.
Semestr:
MFF UK v Praze – letní
Informace pro posluchače:
První týden výuky je 18.–22. 2., poslední týden 22.–26. 5. 2019.
Výuka probíhá v pátek v učebně SW2, a to sudý kalendářní týden 9.00–10.30 a 10.40–12.10, lichý kalendářní týden jen 10.40–12.10.
Sylabus:
https://is.cuni.cz/studium/predmety/index.php?do=predmet&kod=NDBI047
Uzavření předmětu:
Zápočet a zkouška
Zápočet bude udělen za kombinaci testu a vypracování zápočtové úlohy, zaměřené na netriviální analýzu většího datového souboru.
Zkouška prověřuje teoretické znalosti o Hadoopu i o jednotlivých komponentách.
Osnova přednášek a cvičení
Přednáška 1: Úvod do Hadoopu, přínos Big Data technologií v Data Science úlohách
Cvičení 1 + 2: První kroky na clusteru, základní nástroje
Přednáška 2: Storage, distribuované uložení dat v HDFS, technologie Hive
Cvičení 3 + 4: Technologie HDFS, Hive, HQL
Přednáška 3: Apache Spark, výpočty typu Map/Reduce v RAM
Cvičení 5 + 6: Spark RDD a Spark Data Frame paradigma
Přednáška 4: Proudové zpracování dat, algoritmy a technologie
Cvičení 7 + 8: Spark Streaming, Kafka
Přednáška 5: Data Science, modelování příznaků v kontextu velkých dat
Cvičení 9 + 10: modelování příznaků, Spark ML, GraphX
Přednáška 6: Metodika vypracování zápočtové úlohy
Cvičení 11 + 12: práce s počítači, zápočtový test
Poznámka: Vzhledem k umístění celé výuky do laboratoře nebudou striktně odděleny přednášky a cvičení.