Strojové učení v praxi

Účelem tohoto předmětu je seznámit studenty s tím, jak vypadá dnes velmi populární obor Data Science v praxi, a to s ohledem na postupy strojového učení.

V rámci předmětu se studenti seznámí s metodikou Data Science projektu v praxi a s návazností samotného strojového učení na další nutné činnosti. Souběžně si prakticky vyzkoušejí zpracování malého projektu od vstupních dat a zadání úlohy po sestavení modelu a vypracování podrobného analytického reportu.

Předmět se vyučuje nově od zimního semestru 2023/24 jako volitelný na magisterském studiu oboru Znalostní inženýrství FIT ČVUT.

Informace pro posluchače:

Přednáška i cvičení se konají prezenčně v budově FIT ČVUT v Dejvicích. Výuka probíhá každé úterý v učebně T9:351 od 11:45 do 14:15 s 15minutovou přestávkou (podle rozvrhu 13:15–13:30), formálně se dělí na 2 hodiny přednášky a 1 hodinu cvičení. Zimní semestr má 13 týdnů, začíná 22. 9. 2025 a končí 19. 12. 2025. Neučíme 28. 10. 2025 (státní svátek).

Semestr:

zimní

Rozsah:

2/1 Z, Zk

Přednášející a cvičící:

Jan Hučín, Dominik Matula

Kód předmětu:

NI-MLP

Uzavření předmětu:

získaný zápočet a složená zkouška

Požadavky na zápočet:

Vypracování zprávy o analýze a modelování nad daty, které student dostane přidělené nebo si po dohodě sám vybere. Hlavními kritérii jsou strukturovanost a srozumitelnost reportu, schopnost soustředit se na podstatné věci a z dat vyvodit závěry. Předpokládá se aktivní použití metod a technologií probraných během semestru.

Požadavky na zkoušku:

Zkouška proběhne formou písemného testu a krátkého pohovoru nad jeho výsledky. Do hodnocení zkoušky je možné připočítat body, které student získal během semestru nad rámec zápočtového limitu.

plán přednášek a cvičení

23. 9. 2025
Úvod. Organizace předmětu, prerekvizity, požadavky na úspěšné absolvování. Strojové učení v kontextu Data science projektů. Metodika CRISP-DM. Business understanding.
30. 9. 2025
Proč je důležité umět přemýšlet aneb Data understanding. Formulace výzkumných hypotéz a hledání odpovědí. Sanity check, (ne)důvěra k datům. Využití poznatků z explorace k pochopení souvislostí.
7. 10. 2025
Obrázek je víc než tisíc slov aneb Vizualizace. Metody explorace a vizualizace dat. Praktické analytické a vizualizační nástroje. Profiling a nástroje k jeho automatizaci.
14. 10. 2025
Vyprávíme pohádku aneb Tvorba srozumitelného reportu. Rozdíl mezi dokumentací a reportem. Zásady tvorby reportu pro různé účely a cílové skupiny. Technologie, praktické ukázky.
21. 10. 2025
Je dobré mít předsudky? ... aneb bayesiánské uvažování. Bayesův klasifikátor, bayesovská iterace. Praktická aplikace. Empirický Bayes, Laplaceova korekce.
28. 10. 2025
Státní svátek, výuka se nekoná
4. 11. 2025
Přednáška: Co si napočítat z dat aneb Data preparation 1. Čištění dat, rozhodování featureXbug. Výběr množiny příznaků, práce na vzorku a jeho výběr. Ukázka z projektu: Hledání podezřelých kont v datech z hazardních her.
11. 11. 2025
Transformace dat aneb Data preparation 2. Pokročilé metody: redukce dimenze (PCA, UMAP), clustering.
18. 11. 2025
Přednáška: Soutěžíme v Kaggle aneb Modeling & Evaluation 1. Zpracování velkého souboru, volba modelovací metody a metrik. Referenční model a jeho význam pro další pokusy o vylepšení modelu. Automatizace výpočtu, datové pipeliny, MLops
25. 11. 2025
. Za ztížených podmínek aneb Modeling & Evaluation 2. Jak se vyrovnat s dodatečnými podmínkami na model: rychlost (real-time), velikost dat, výpočetní náročnost, implementační náročnost, interpretovatelnost apod. Obecné přístupy k interpretabilitě, shap values.
2. 12. 2025
Data Science a ChatGPT.
9. 12. 2025
Statistické pasti a paradoxy. Averze k riziku, Benfordův zákon, důsledky nevhodného zjednodušení. Limity statistických metod.
16. 12. 2025
Co se nevešlo aneb další ukázky z praktických projektů.