Dozvuky DataWorks Summitu 2019 v Barceloně aneb Máme statistický model – a co teď?

Určitě jste už slyšeli o digitální transformaci (nebo taky „že data jsou nová ropa“). Konkurence tvrdí, že úspěšně používá technologie velkých dat a strojové učení. Někdo to dokonce nazývá umělou inteligencí. A tak si řeknete, že je čas, abyste se do tohoto „data race“ taky zapojili.

Najmete si data science tým matematiků a statistiků, postavíte vlastní „data lake“ a už jen čekáte, kdy vám začnou téct peníze. Jenže najednou je to třetí měsíc, co máte „data lake“ a jste „data driven“ společnost a nic moc se neděje. Statistici vám sice vyvinuli skvělý model, který má na testovacích datech neuvěřitelnou úspěšnost, ale co dál? Jak můžete nasadit model do produkce?

Realita je taková, že od finalizace modelu po nasazení do produkce může uplynout hodně času, pokud nemáte procesy optimalizované pro potřebu data science. Máte zprovozněný monitoring modelu? Víte, jak vše správně zadat do produkčních strojů? Dříve se využívaly spíše jen Java aplikace a svět byl relativně jednoduchý. Ale jak tam Python ten teď dostat? Který algoritmus je nejlepší – logistická regrese, rozhodovací strom, náhodný les nebo populární buzzword Deep Learning? A co kvalita modelu? Není už zastaralý? Kdy ho budu potřebovat obnovit? Jak nasdílím výsledky s businessem? Největší hráči na technologickém trhu jako např. Michelangelo od Uberu nebo Fblearner od Facebooku, investují nemalé peníze do vývoje a rozvoje interních nástrojů a infrastruktury. Ale vy nejste Google ani Uber. Můžete se potýkat s nedostatkem lidí nebo času na vývoj vlastních nástrojů. Co tedy dělat? Možná pro vás máme řešení.

Na konferenci DataWorks Summit 2019 v Barceloně Cloudera a HortonWorks představili Cloudera Data Science Workbench . Nástroj pro kooperativní data science, který má podporu funkcí pro monitoring a deployment machine learning modelů. Ve spolupráci s Big Data a Data Science oddělením Profinitu si tak můžete velmi snadno vystavět model jako REST-API pomocí jednoduché konfigurace a nemusíte napsat ani řádku kódu.

Další zajímavá řešení data science workflow z prostředí bank představili Dor Kedem z ING Bank s přednáškou: Model Factory at ING Bank (slidy zde)  a Sagar Kewalramani s Justinem Normanem (Cloudera): Machine Learning Model Deployment (slidy zde).