Technologie pro velká data

Cílem je naučit studenty na konkrétních úlohách, jak používat Big Data technologie z rodiny Hadoop a Spark pro analýzu a zpracování velkých dat.

Předmět odráží zkušenosti z reálných Data Science projektů z oblasti bankovnictví, telekomunikací a IoT. V průběhu semestru studenti získají přístup na Metacentrum Hadoop Cluster a naučí se vytvářet velké výpočetní úlohy.


Semestr:

FEL ČVUT v Praze – zimní

Informace pro posluchače:

Výuka probíhá ve středu:

  • v lichých výukových týdnech pouze přednáška 9.15–10.45 v učebně E-127;
  • v sudých výukových týdnech cvičení kombinované případně s přednáškou v učebnách E-127 a E-307 (přesný rozvrh je oznamován předem).

Sylabus:

https://www.fel.cvut.cz/cz/education/bk/predmety/47/73/p4773206.html

Uzavření předmětu:

Zápočet a zkouška

Zápočet bude udělen za kombinaci teoretického testu, praktického testu a domácích úkolů. Alternativně lze získat zápočet za vypracování zápočtové úlohy, zaměřené na netriviální analýzu většího datového souboru.

Zkouška prověřuje teoretické znalosti o Hadoopu i o jednotlivých komponentách.


Osnova přednášek a cvičení

 

Osnovy přednášek:

1. Úvod, organizace, motivace, přehled, aplikace
2. Architektura clusteru – Hadoop (hw, distribuce, hdfs, yarn)
3. Storage (formáty ukládání a komprese dat, HIVE, Impala)
4. Map+reduce – paradigma a implementace (fáze výpočtu, schémata algoritmů)
5. Spark a zpracování streamovaných dat (RDD, DataFrames, zdroje, streaming)
6. Big Data Science (page rank, kolaborativní filtrování, SNA)
7. Datové Architektury (typické architektury Big Data řešení, dwh, data lake)

 

Osnovy cvičení:

1. První kroky na clusteru (připojení, certifikáty, tunely, administrace, tasky, logy)
2. Hive (vytváření a rušení tabulek, interní a externí mapování, dotazy)
3. Map Reduce (java úlohy na základní map reduce programování)
4. Spark (map reduce ve sparku, práce s RDD a DF)
5. Spark (větší úloha a příprava na zápočtový test)
6. Rezerva (Spark ML a GraphiX)