Nejen v komunitě datových vědců je dnes dostatečně známo, že analýza sociálních vztahů, chápaná v nejširším smyslu slova, je mimořádně nosným zdrojem informací o chování a preferencích lidí. Vztahová data jsou široce využitelná pro prediktivní modelování, segmentace, scénářové predikce a mnoho dalších obchodních aplikací.
Klíčovým faktorem sociálních sítí je spontánní vlastnost známá jako asortativita čili přirozená tendence uzlů v síti vytvářet spojení s takovými uzly, které sdílejí podobné vlastnosti. Lidově řečeno – vrána k vráně sedá… Známe to všichni ze svých vlastních sociálních vazeb. Tvoří je lidé z naší rodiny, města, kde žijeme, generace, k níž náležíme, a vůbec jedinci s podobným vzděláním, profesí či zájmy, nebo také lidé, kteří se nacházejí v podobných životních situacích jako právě teď my. Je přirozené, že takové lidi potkáváme nepoměrně častěji než zbytek populace.
Nejjednodušší způsob, jak předem odhadnout pravděpodobné vlastnosti nebo chování jednotlivce na základě jeho sociální sítě (nebo chcete-li bubliny), je rozpoznat vzorce převažující v jeho síťovém okolí. K extrahování takových informací slouží celá řada algoritmů. Některé z nich jsou klasické, například grafové vyhledávání do šířky nebo statistická analýza nejbližších sousedů. Jiné se objevily teprve nedávno, například semi-supervised shlukovací metody nebo využití umělé inteligence na bázi algoritmů hlubokého učení.
Přestože se jedná o zajímavé a často velmi invenční přístupy, opravdová výzva sociálního miningu leží jinde. Skutečným úkolem je provést analýzu sociální sítě tam, kde neexistuje žádná sociální síť. Překvapivé, že? Zkuste se nad tím na chvíli zamyslet. V reálném světě je extrémně vzácné, aby se vám do rukou dostala data z plnohodnotné sociální sítě, alespoň pokud nepracujete pro Facebook nebo třeba NSA ;-).
Ačkoliv lze v praxi jen stěží získat přímý přístup k sociálním sítím, lze se k nim s jistým úsilím dostat nepřímo. Podstatné části sociálních struktur, které drží pohromadě lidskou společnost, jsou vepsány do velkého počtu běžných datových sad. Vezměte si obyčejná provozní data kancelářských aplikací: struktura e-mailové komunikace, seznamy schůzek a jejich účastníků, logovací záznamy o přístupech do různých sdílených systémů jako společná úložiště dokumentů, verzovací a trackovací nástroje a mnoho dalších – to vše představuje nekonečný zdroj dat o tom, kteří lidé spolu vzájemně sdílejí svůj čas, myšlenky a problémy.
Skutečnou výzvou pro datového vědce, který se rozhodl analyzovat sociální vztahy, je především zvolit si vhodnou obchodní doménu – takovou, která oplývá dostatkem dat – pochopit často nesmírně spletité vzorce, na základě kterých se reálné společenské struktury odrážejí ve zdánlivě chaotických datových záznamech. Na základě tohoto poznání je možné zkonstruovat sadu modelů, které pomohou odhalit skrytou sociální strukturu, a s její pomocí zpětně sestavit kýženou sociální síť.
Zbytek už je snadný: stačí pozorně sledovat chování lidí ve vašem okolí a zvíte, co se nejspíš přihodí i vám.
Autor: Petr Paščenko
Head of Data Science