Technologie pro velká data

Cílem tohoto předmětu je seznámit studenty s novými trendy a technologiemi pro uchovávání, správu a zpracování velmi rozsáhlých dat (big data).

Předmět se zaměřuje na architekturu a aplikace systémů pro správu velkých dat. Studenti si osvojí celistvý pohled na ekosystém technologií od výběru hardware infrastruktury, procesu extrakce, transformace a načítání dat přes jejich uložení, správu a analýzu až po pokročilé metody datové vědy a strojového učení pro zpracování dat a následné aplikace výsledků v byznysu.


Semestr:

ČVUT FEL v Praze – zimní

Informace pro posluchače:

Přednášky i cvičení se konají vždy ve středu od 9:15 do 10:45 v místnosti KN-E-126 (od 22. 2. 2017 do 10. 5. 2017)

Sylabus:

http://www.fel.cvut.cz/cz/education/bk_peo/predmety/30/09/p3009406

Uzavření předmětu:

Kvalifikovaný zápočet

Požadavky na zápočet:

Splnění zápočtového testu nebo vypracování zápočtové úlohy


Osnova přednášek a cvičení

Úvod, přehled, aplikace

  • stručný průlet kurzem
  • aplikace BD technologií v průmyslu
  • vztah BD a Data Science

 

Architektura clusteru – Hadoop

  • HW, Hadoop, cluster, HDFS
  • distribuce dat a výkonu
  • Cloudera, Hortonworks ostatní
  • Správa zdrojů, YARN

 

První kroky na clusteru (cvičení)

  • připojení, certifikáty, tunely, porty
  • administrace, tasky, spouštění, zabíjení, logy
  • HDFS, put, get, …

 

Storage

  • HDFS, formáty ukládání dat, komprese dat
  • Hive a Impala
  • Externí a managed tabulky
  • Partitioning, bucketing, indexy
  • Úvod do HBase

 

Hive (cvičení)

  • Ext/int, create, práva, select, …

 

Map+Reduce – paradigma a implementace

  • Historie paralelních výpočtů / Functionální framework
  • Distribuce výpočtu mezi nody
  • Fáze výpočtu: map – combine – reduce
  • Schémata algoritmů pro map-reduce
  • Aplikace MapReduce
  • Alternativy k MapReduce

 

Map+Reduce java úlohy (cvičení)

  • Naprogramování základních vzorů z přednášky

 

Spark + zpracování streamovaných dat

  • map reduce ve sparku
  • rdd a data frame, sql ve sparku
  • scalla / java / python – odlišnost syntaxe
  • spark streaming

 

Spark (cvičení)

  • zpracování úloh pomocí sparku

 

Big Data Science a Datové Architektury

  • page rank, kolaborativní filtrování, SNA
  • kontext DWH, Data Lake, transformace dat (ETL)
  • reporting

 

Spark (cvičení)

  • větší úloha, příprava na test

plán přednášek a cvičení

22. 2. 2017
Úvod, motivace, přehled, aplikace (přednáška)
1. 3. 2017
Architektura clusteru - Hadoop (přednáška)
8. 3. 2017
První kroky na clusteru (cvičení)
15. 3. 2017
Storage (přednáška)
22. 3. 2017
Hive (cvičení)
29. 3. 2017
Map+Reduce - paradigma a implementace (přednáška)
5. 4. 2017
Map+Reduce Java úlohy, Průběžný zápočtový test (cvičení)
12. 4. 2017
Spark + zpracování streamovaných dat (přednáška)
19. 4. 2017
Spark (cvičení)
26. 4. 2017
Big Data Science a Datové Architektury (přednáška)
3. 5. 2017
Spark (cvičení)
10. 5. 2017
Zápočtový test, Vyhodnocení zápočtových úloh