Data Science

Tento předmět slouží pro porozumění, co zahrnuje dnes velmi populární obor Data Science.

V rámci předmětu se studenti seznámí s metodikou Data Science projektu a s potřebnými znalostmi a dovednostmi. Souběžně si prakticky vyzkoušejí zpracování malého projektu od vstupních dat a zadání úlohy po sestavení modelu a vypracování podrobného analytického reportu.

Předmět se vyučuje jako povinně-volitelný na magisterském studiu oboru Informatika, MFF UK, a to v budově na Malostranském náměstí.

Prohlédnout sylabus předmětu

Informace pro posluchače:

Výuka se koná ve středu, a to nejdřív přednáška 9.00–10.30 v S4, poté cvičení 10.40–12.10 taktéž v S4, výuka je prezenční a v češtině, materiály pro studenty připravujeme v angličtině.

Výuka v semestru začíná v pondělí 29. 9. 2025 a končí v pátek 9. 1. 2026 s vánoční přestávkou od 22. 12. 2025 do 2. 1. 2026. Neučíme ve středu 12. 11. 2025 (Děkanský den).

Semestr:

zimní

Rozsah:

2/2 Z, Zk

Přednášející a cvičící:

doc. Irena Holubová (KSI MFF UK), Jan Hučín, Dominik Matula

Kód předmětu:

NDBI048

Uzavření předmětu:

získaný zápočet a složená zkouška

Požadavky na zápočet:

Vypracování zprávy o analýze a modelování nad daty, které student dostane přidělené nebo si po dohodě sám vybere. Hlavními kritérii jsou strukturovanost a srozumitelnost reportu, schopnost soustředit se na podstatné věci a z dat vyvodit závěry. Předpokládá se aktivní použití metod a technologií probraných během semestru.

Požadavky na zkoušku:

Zkouška proběhne formou písemného testu. Do hodnocení zkoušky je možné připočítat body, které student získal během semestru nad rámec zápočtového limitu.

plán přednášek a cvičení

1. 10. 2025
Organizace, klasifikační požadavky. Co je to Data Science. CRISP-DM. Business Understanding.
8. 10. 2025
Data understanding. Explorace a získávání poznatků z dat.
15. 10. 2025
Metody explorace a vizualizace. Statistické a vizualizační metody v Pythonu.
22. 10. 2025
Tvorba srozumitelného reportu.
29. 10. 2025
Statistické pasti a paradoxy. Limity statistických metod.
5. 11. 2025
Data preparation. Čištění dat, nápočet příznaků.
12. 11. 2025
Děkanský den, výuka se ruší.
19. 11. 2025
Modelování I – základní principy.
26. 11. 2025
Modelování II – clustering, empirické modelování.
3. 12. 2025
Bayesovský přístup. Klasifikátor, empirický Bayes, praktické důsledky.
10. 12. 2025
Pokročilé technologie pro Data Science. MLops, pipelines, implementace.
17. 12. 2025
AI v Data science. ChatGPT a LLM v praxi.
7. 1. 2026
Moderní DB systémy a cloudové platformy v Data Science.