Cílem je naučit studenty na konkrétních úlohách, jak používat Big Data technologie z rodiny Hadoop a Spark pro analýzu a zpracování velkých dat.
Předmět odráží zkušenosti z reálných Data Science projektů z oblasti bankovnictví, telekomunikací a IoT. V průběhu semestru studenti získají přístup na Metacentrum Hadoop Cluster a naučí se vytvářet velké výpočetní úlohy.
Semestr:
FEL ČVUT v Praze – zimní
Informace pro posluchače:
Výuka probíhá ve středu:
- v lichých výukových týdnech pouze přednáška 9.15–10.45 v učebně E-127;
- v sudých výukových týdnech cvičení kombinované případně s přednáškou v učebnách E-127 a E-307 (přesný rozvrh je oznamován předem).
Sylabus:
https://www.fel.cvut.cz/cz/education/bk/predmety/47/73/p4773206.html
Uzavření předmětu:
Zápočet a zkouška
Zápočet bude udělen za kombinaci teoretického testu, praktického testu a domácích úkolů. Alternativně lze získat zápočet za vypracování zápočtové úlohy, zaměřené na netriviální analýzu většího datového souboru.
Zkouška prověřuje teoretické znalosti o Hadoopu i o jednotlivých komponentách.
Osnova přednášek a cvičení
Osnovy přednášek:
1. | Úvod, organizace, motivace, přehled, aplikace | |
2. | Architektura clusteru – Hadoop (hw, distribuce, hdfs, yarn) | |
3. | Storage (formáty ukládání a komprese dat, HIVE, Impala) | |
4. | Map+reduce – paradigma a implementace (fáze výpočtu, schémata algoritmů) | |
5. | Spark a zpracování streamovaných dat (RDD, DataFrames, zdroje, streaming) | |
6. | Big Data Science (page rank, kolaborativní filtrování, SNA) | |
7. | Datové Architektury (typické architektury Big Data řešení, dwh, data lake) |
Osnovy cvičení:
1. | První kroky na clusteru (připojení, certifikáty, tunely, administrace, tasky, logy) | |
2. | Hive (vytváření a rušení tabulek, interní a externí mapování, dotazy) | |
3. | Map Reduce (java úlohy na základní map reduce programování) | |
4. | Spark (map reduce ve sparku, práce s RDD a DF) | |
5. | Spark (větší úloha a příprava na zápočtový test) | |
6. | Rezerva (Spark ML a GraphiX) |