Zkusili jste se někdy ponořit do hlubin datového skladu vaší společnosti? Možná jste tam krom nějakého toho kostlivce našli zlatou žílu. A pokud ne, je nejvyšší čas vyhrnout si rukávy a začít těžit data!
Žijeme ve věku informací a, jak se říká, data jsou naftou nového tisíciletí. Ba co víc, na rozdíl od nafty jsou data prakticky nevyčerpatelná, neustále jich přibývá, relativně snadno se uchovávají, nezpůsobují globální oteplování, … Prostě samé výhody. A mít ty správné informace ve správnou chvíli je klíčový rozdíl, který dělí úspěšné od těch ostatních. Či spíš – schopnost dokázat najít ty správné informace, neboť s rozvojem BigData technologií je ukládání všech myslitelných logů a dat až nesnesitelně snadné.
O tom, jak esenciálně důležité je hledat, těžit a sofistikovaně využívat informace, nás dennodenně přesvědčují internetoví giganti dneška – Amazon, Google, Facebook a další. Všechny tyto firmy dokáží zpracovat informace o svých klientech a přetavit je v zisk pro sebe a v kvalitnější služby pro své uživatele. Vždyť kdo z nás nikdy neklikl na další video, které by se vám mohlo líbit? A kdo z nás nikdy nepřihodil do košíku ještě jednu knihu, kterou lidé jako vy také koupili?
Transakční obraz klienta
Obrovský potenciál mají především relační data. Všimněte si, že všechny zmíněné korporace těží právě z tohoto druh dat! Naštěstí nemusíte provozovat zrovna největší e-shop světa, abyste je mohli využít. Relační data ukládá většina našich klientů (banky, telko, státní instituce, …). Jde jen o to vytěžit z nich maximum.
Pojďme se v krátkosti podívat na use-case Instalment Detector, který jsme vyvinuli pro jednu českou banku. Jeho cíl je jednoduchý – mám klienta, kterému vedeme běžný bankovní účet, a chtěli bychom zjistit, zda (a které!!) jeho transakce jsou splátkami. Jistě si sami dokážete představit, co by to mohlo přinést! Jen namátkou:
- Z výše splátek a jejich (ne)pravidelnosti si dokážu udělat lepší představu o rizikovosti klienta.
- Mohu mu připravit nabídku na míru a nabídnout mu lepší podmínky. Spokojený pak bude váš zákazník i váš management.
Abychom zjistili, které transakce jsou splátkami, naštěstí nemusíme své klienty obvolávat. Stačí se pečlivě podívat do dat, která už stejně mám v datových skladech uložená.
Jmenuji se Holmes. Sherlock Holmes.
Jak takové hledání pokladů v datech probíhá? Spíš než data mining, jak se této činnosti zpravidla říká, mi celý proces připomíná důkladnou detektivní práci. Nevěříte? Sledujte se mnou:
Na začátku detektiv pečlivě zkoumá místo činu, diskutuje se svědky a vytváří si několik vyšetřovacích hypotéz. Podobně musí data scientist pečlivě studovat celou problematiku (v případě Instalment detectoru – tedy svět půjček a splátkových společností, typické chování klientů v jednotlivých segmentech, anomálie v transakčních vzorech atd.). Velmi přínosná je diskuse s doménovými odborníky našeho klienta – to oni jsou těmi svědky, kteří znají data i proces jejich vzniku.
S každou stopou, kterou detektiv najde, upravuje svoje přesvědčení o tom, co se na místě činu skutečně stalo. Pokud se kupříkladu v nedalekém zahradním domku najdou zakrvácené vidle, podezření na zahradníka okamžitě vzroste. Bohužel ne vždy jsou stopy takto jasné – někdy je třeba rozplétat předivo událostí s Holmesovskou pečlivostí a smyslem pro detail. O to fascinující je pak odhalení na konci každé Doyleovy knihy.
Stejně tak v případě Instalment detectoru jsme naučili našeho digitálního detektiva všímat si nejen očividných stop (např. na známý účet splátkové společnosti jde platba s poznámkou „splátka televize“). Aby si obhájil své místo na slunci, musel si všímat vzorů v platbách (od frekvence, proměnnosti výše, stálosti a penza používaných symbolů, …), charakteristik klientů (ano, starší lidé si berou půjčky méně často než třeba třicátníci), časových souvislostí, transakčních poznámek, … Takže na konci procesu mohl rázně přednést: data hovoří jasně, můj milý Watsone!
Se zkušeností roste síla
Klasifikační algoritmy, mezi které detekce splátkových transakcí spadá, dělíme na dvě třídy – tzv. unsupervised learning a supervised learning algoritmy. První jmenovaná připomíná bystré oko detektiva, které si všimne, že tady něco nehraje, že něco je jinak, než by mělo být… Ano, to může být někdy ošemetné – jak by se vám třeba líbilo, kdyby vás zavřeli, protože se chováte neobvykle dobře?!
Druhá třída, tedy supervised learning algoritmy, připomíná výcvik detektiva – na akademii ho seznámíme s velkým množstvím již vyřešených případů a necháme ho, aby konal detektivní práci sám. Bohužel ani tento přístup není samospásný – svět se mění a zločinci přicházejí s novými a novými způsoby, jak přelstít ruku zákona. Tak nějak tušíme, že schopný detektiv používá oba přístupy.
Nejinak tomu je i v živé světě splátek. Společnosti vznikají a zanikají (viz například nedávná změna regulí vynucující registraci splátkovek u ČNB), zvyklosti klientů se mění, … Pokud bychom chtěli například výčet bankovních účtů splátkových společností, velmi rychle nám zastará. A P2P půjčky či půjčky mezi přáteli by byly nepostižitelné…
V rámci Instalment detectoru jsme proto nechali promluvit samotné klienty a implementovali jsme meta-model reflektující tuto dynamiku. A to není jediný případ, kdy náš digitální detektiv může zužitkovat znalosti. Bayesovské sítě, jenž dřímají v jeho nitru, k iterativnímu zlepšování přímo vybízí.
Od splátek spotřebitelských úvěrů je jen krůček k hypotékám a leasingům. A další k jiným typům transakcí – od detekce příjmů (viz náš další realizovaný projekt, Salary detector) až po segmentaci klientů na základě jejich spotřebitelského chování. Stačí detektiva naučit všímat si jiných stop.
Dominik Matula, Senior Data Scientist, Profinit