Data Science kdysi počítala bakterie, dnes řídí auta

Brzy uplyne dvacet let od přelomového zápasu v dějinách šachu. V květnu 1997 počítač DeepBlue od firmy IBM v zápase na šest partií těsně porazil aktuálního mistra světa Garriho Kasparova. Dlouho se mělo za to, že v šachu rozhoduje schopnost strategického myšlení, které stroje nejsou schopny obsáhnout. Jak se však sám Kasparov vyjádřil, některé tahy DeepBlue mu připadaly spíš „lidské“ než „počítačové“. Podobnému nástupu umělé inteligence neodolali ani mistři v jiných složitých hrách – v roce 2010 zvítězil počítač ve hře šogi, v minulém roce ve hře go a začátkem letošního roku byli poraženi profesionální hráči pokeru.

Co měly tyto úspěchy společného? Žádného z nich nedosáhl počítač pouze tím, že by vyhodnotil všechny možné varianty dalšího průběhu hry a vybral tu nejvýhodnější. Na to jsou šachy, šogi i go příliš komplexní. V pokeru zase stojí proti křemíku náhodný prvek lidského blufování. Umělá inteligence dokázala triumfovat až poté, kdy se naučila správně vyhodnocovat jednotlivá postavení během hry. Dnes se na porážku Garriho můžeme dívat jako na praktickou ukázku, co dokáže spojení velkých dat a efektivního zpracování, řečeno dnešním jazykem Big Dat a Data Science.

V minulém století se oboru Data Science říkalo statistická analýza a kromě rutinního reportingu neměla v businessu příliš velké využití. Aplikace se objevovaly především v biologii, lékařství, ekonomii, počítače v 80. a 90. letech neměly dostatečný výkon na složité modely s mnoha daty. Technologický boom však zapracoval hned na dvou frontách. Především jsou dnes i obyčejné notebooky schopné zpracovat gigabyty dat pomocí sofistikovaných statistických metod. A za druhé se ne gigabyty, ale o mnoho řádů větší data každým okamžikem shromažďují pomocí automatických systémů.

Telefonní operátoři vědí o každém vašem hovoru, zprávě, dokonce i o vašich přesunech. Banky vědí, od koho jste dostal jakou částku, kam jste co poslal, kde jste utratil kolik peněz platební kartou. Hypermarkety vás lákají na slevu, pokud si pořídíte zákaznickou kartičku, pomocí níž zjistí, kolik jakého zboží nakupujete. Nasazení machine learning na taková data dovoluje monitorovat transakce a zablokovat možné zneužití karty nebo neoprávněný přístup k účtu, motivovat zákazníky k dalšímu nákupu pomocí individualizovaných slev apod. Konference Deep In Data v listopadu 2016 představila jak tradiční využití (například pro retenci zákazníků), tak nové aplikace (například využití polohových telekomunikačních dat pro pojištění). Největší ruská banka Sberbank zpřístupnila anonymizovaná data pro soutěž týmů mladých „datových vědců“ – některé jejich nápady jsou vskutku pozoruhodné.

A nezůstává jen u strukturovaných dat. Data Science na počátku roku 2017 umí prohledávat a porovnávat textové dokumenty, dovoluje testovat autonomní řízení vozidel, predikuje šíření nakažlivých chorob. Podle portálu dataversity.net bude v letošním roce polovina řešení v oblasti business intelligence vytěžovat události generované internetem věcí a čtvrtina firem bude mít na konci roku zřízenou pozici hlavního správce dat (chief data officer).

Pro technologické optimisty je letošní rok velkým příslibem. Technologické pesimisty by mohla zachránit asi jen nějaká černá labuť. Tu v Profinitu ale vyhlížet nebudeme.

Jan Hučín