Data science identifikuje zaměstnanecké i rodinné vztahy, a řekne vám, za kolik máte půjčovat

Big data/Data science je nejrychleji se rozvíjející kompetencí Profinitu. Například tým, který se specializuje na Big data technologie vyrostl z nuly před rokem 2015 na 30 konzultantů. Naše znalosti posíláme dál i prostřednictvím předmětu „Technologie pro velká data“, který naši kolegové přednáší na ČVUT FEL. Poslední dobou se zaměřujeme na praktické využití informací z velkých data pro business.

Výhodou je, že naši klienti z oblasti bankovnictví a telekomunikací disponují značným množstvím transakčních dat, nad kterými lze vytvářet analytické modely. Na pracovní snídani s názvem „Big data – jak z nich těžit informace“, která se uskutečnila ve čtvrtek 1. února, jsme představili, tři takové modely:

První model – Salary detector – hledá vztah „zaměstnavatel – zaměstnanec“ mezi klienty (účty) banky na základě transakčních dat. Podle našich zjištění je klient, který si do konkrétní banky nechává posílat mzdu výrazně věrnější. Vytvořili jsme model založený na Bayesově pravděpodobnostní síti, který – ve srovnání s původním modelem banky založeným na hodnocení několika pevných příznaků, dokázal identifikovat navíc čtyřnásobek nových účtů, na které chodí výplata.

Představili jsme také model identifikace „domácnosti“ v datech mobilního operátora, který byl využit při přípravě nabídky speciálního rodinného tarifu. Zde jsme pracovali s opravdu velkými daty, mimo jiné s údaji o hovorech, SMS zprávách a přibližné geolokaci a pohybu SIM karet. Identifikace rodinného vztahu je relativně komplikovaná, protože je náchylná na mnoho „falešně“ pozitivních případů (sourozenci, rozvedené páry…). Přesto model založený na velkých datech dosahoval vysoké přesnosti. Zajímavým vedlejším zjištěním bylo třeba i to, že texty v SMS zprávy posílané mezi manželskými páry jsou obvykle kratší než průměr.

Poslední představený projekt se zabýval nastavením optimální úrokové sazby úvěru z pohledu rizika, že zákazník nabídku úvěru nakonec nepřijme nebo úvěr předčasně splatí a banka tak přijde o část zisku. Pro tento projekt jsme připravili interaktivní modelovací prostředí (s využitím nástroje R-Shiny), kde si analytici banky mohou sami nad reálnými daty modelovat očekávaný zisk v závislosti na nastavené úrokové sazbě z úvěru. Překvapením modelu bylo, že zákazníci jsou v praxi připraveni akceptovat vyšší úrokovou sazbu, aniž by to vedlo k jejich odchodu (samozřejmě až do určité míry).

Prezentace jsme zveřejnili prostřednictvím služby Slideshare:
1. Big data jako nástroj pro hluboký transakční mining 
2. Detekce mzdových interakcí v bance
3. Detekce domácnosti v telekomunikacích 
4. Optimalizace online úrokové sazby