Hackujstát 3.0 a předražený větrák

Pátek třináctého letos rozhodně nebyl nešťastný zářijový den. V budově NKÚ se sešlo okolo sedmdesáti lidí, kteří se chtěli zabývat otevřenými daty České Republiky. K tomu, aby jim to šlo lépe a data byla správně chápaná, přišlo i mnoho expertů z úřadů, které se na hackatonu podílely. Jako dlouholetý „šťoural“ do otevřených dat jsem nemohl chybět a podařilo se mi ulovit také pár kolegů. Poopravil bych proto autora na Lupa.cz – nebyl tam jen tým z Keboola, ale také tým z Profinitu a OpenDataLabu. Zbývalo vymyslet, co za úlohy řešit.

Naše část se pokusila pomoci úředníkům s vypisováním zakázek tím, že bychom ve fakturách a smlouvách identifikovali jednotlivé produkty a nabídli jejich vyhledávač. Tak jsme před čtvrtou hodinou byli natěšeni ve velké zasedačce v NKÚ na Maninách. Ve foyer bylo možné vidět každoroční účastníky a zkušené harcovníky, kteří v opendatech něco znamenají. Michala Bláhu, Honzu Cibulku, Michala Kubáně, Ondru Kokeše a mnoho dalších. Otevřeně mluvili o problémech, které ČR v této oblasti má.

Náš letošní plán byl poměrně jasný, využijeme nástroj vyvinutý na MFF UK, který se jmenuje NameTag a paralelně s tím model naučený na českém korpusu ve frameworku SpaCy. NameTag při prvním pokusu dával docela obstojné výsledky, i když sám autor byl překvapený, že vůbec nějaké produkty nalezne, protože pro tento účel nebyl navržen. SpaCy se nám na hackatonu bohužel obstojně nepodařilo rozběhnout a před půlnocí jsme měli zhruba třináct set produktů ze zhruba půl milionem faktur, které nám na dálku stáhla kolegyně z OpenDataLabu Lucka Svitáková. Děkujeme!

První kolega odpadl a odjel domů.

Následně data prošla mojí manuální očistou, až jsme se dopracovali ke zhruba 350 produktům, z nichž většina byla vozidla a mobilní telefony. Následně jsme využili API hlídače státu a do vazební tabulky naplnili výskyty těchto klíčových slov a to samé jsme aplikovali i na faktury. Tím jsme dostali vazby produktů na faktury a smlouvy.

Mezi čtvrtou a pátou hodinou ranní mi odpadli už oba další kolegové a u vedlejšího týmu byl též vidět pokles přítomných.

Pokusil jsem se ručně identifikovat jednotkové ceny zboží. Bohužel jsem zjistil, že mnoho úřadů tají rozpisy cen ve smlouvách. Jediné, kde jsem byl schopen ceny identifikovat, navíc se zajímavým rozptylem, byly větráky Sencor. V pět ráno přeci každého potěší, že našel potenciální předražení malého větráku o šedesát korun. Když jich koupíte pět, je to už 300 Kč, velezločin!

Po šesté začalo svítat a menší krize chytila i mne. Snažil jsem se generovat report z PowerBI a hlava naprosto nebrala, že ukládám do souboru C, ale na webu mám otevřený projekt B. Proč se to B nemění? Odhalení tohoto zapeklitého chytáku mi trvalo asi dvacet minut, přičemž jsem si asi třikrát málem obtiskl klávesnici na čelo. Krize ale rychle přešla, v místnosti se začalo hýbat víc lidí a byl čas na ranní hygienu. A asi dvacátý třetí čaj.

Dopoledne jsme věnovali ladění PowerBI dashboardu, a také jsem si neodpustil zašťourat do datasetu EET, které přineslo ministerstvo financí. Již brzy výsledky prezentuji, z dat jsou vidět některé typické podvody a také obří význam Vánoc pro maloobchod. Po výborné snídani jsme rozšířili seznam produktů a učesávali data.

V jednu jsme pojedli a vlastně měli hotovo. Díky tomu, že jsme se předem rozhodli netlačit na pilu a nepokoušet se dohledávat také jednotkové ceny, měli jsme validní PoC, kterému jsme docela věřili. Může to přeci ušetřit miliony, to musí obstát. Místnost se víc a víc zaplňovala a my museli vytvořit krátkou prezentaci. Formát tři minuty prezentace, tři minuty otázky je vražedný. Není čas na žádné zaváhání. Vyzkoušeli jsme konektivitu, projektor a v šest se mohlo začít. Program se trochu natáhl, takže porota se k rozhodování dostala okolo půl osmé.

Povězme si na rovinu – nedopadlo to. Nicméně jsme později zjistili, že jsme na děleném pátém místě a to považujeme za úspěch. Na tomto hackatonu opravdu není důležité vyhrát, ale přijít a zažít tu atmosféru. Doufám, že to zase za rok vyjde!

 

P.S.: Jak Hackujstát 3.0 zvládl náš druhý tým a co musel řešit? Dozvíte se v dalším díle za týden.

 

Autor: Marek Sušický

Head of Big Data