Technologie pro velká data

Cílem je naučit studenty na konkrétních úlohách, jak používat Big Data technologie z rodiny Hadoop a Spark pro analýzu a zpracování velkých dat.

Předmět odráží zkušenosti z reálných Data Science projektů z oblasti bankovnictví, telekomunikací a IoT. V průběhu semestru studenti získají přístup na Metacentrum Hadoop Cluster a naučí se vytvářet velké výpočetní úlohy.

Semestr:

FEL ČVUT v Praze – zimní

Informace pro posluchače:

Výuka probíhá ve středu:

v lichých výukových týdnech pouze přednáška 9.15–10.45 v učebně E-127;
v sudých výukových týdnech cvičení kombinované případně s přednáškou v učebnách E-127 a E-307 (přesný rozvrh je oznamován předem).

Sylabus:

https://www.fel.cvut.cz/cz/education/bk/predmety/47/73/p4773206.html

Uzavření předmětu:

Zápočet a zkouška

Zápočet bude udělen za kombinaci teoretického testu, praktického testu a domácích úkolů. Alternativně lze získat zápočet za vypracování zápočtové úlohy, zaměřené na netriviální analýzu většího datového souboru.

Zkouška prověřuje teoretické znalosti o Hadoopu i o jednotlivých komponentách.

Osnova přednášek a cvičení

Osnovy přednášek:

1.		Úvod, organizace, motivace, přehled, aplikace
2.		Architektura clusteru – Hadoop (hw, distribuce, hdfs, yarn)
3.		Storage (formáty ukládání a komprese dat, HIVE, Impala)
4.		Map+reduce – paradigma a implementace (fáze výpočtu, schémata algoritmů)
5.		Spark a zpracování streamovaných dat (RDD, DataFrames, zdroje, streaming)
6.		Big Data Science (page rank, kolaborativní filtrování, SNA)
7.		Datové Architektury (typické architektury Big Data řešení, dwh, data lake)

Osnovy cvičení:

1.		První kroky na clusteru (připojení, certifikáty, tunely, administrace, tasky, logy)
2.		Hive (vytváření a rušení tabulek, interní a externí mapování, dotazy)
3.		Map Reduce (java úlohy na základní map reduce programování)
4.		Spark (map reduce ve sparku, práce s RDD a DF)
5.		Spark (větší úloha a příprava na zápočtový test)
6.		Rezerva (Spark ML a GraphiX)