Business & Data Intelligence: Tabulky, nebo sítě?

Troufám si říci, že naprostá většina řešení v oblasti Business Intelligence dnes stále běží na relačních databázích. Není divu, vzpomínám si, v jakém úžasu jsem kdysi byl, když jsem pochopil jednoduchost a krásu relační algebry a poznal univerzalitu a sílu dotazovacího jazyka SQL. Relační databáze jsou založené na tabulkách, které jsou navzájem provázané přes „relace“, tedy definované vztahy – například „tento bankovní účet patří tomuto klientovi“. Veškeré pohledy a výstupy z relačních databází mají opět podobu tabulek. Ideální „čtverečkovaný“ svět pro uživatele z oddělení finančního controllingu: co řádek, to položka s číslem, dole součet, kontrola. Souhlasí? Nesouhlasí? Nevadí, oprava, už v pořádku? Perfektní, máme hotovo… Vím, o čem mluvím. Pro mě samotného jsou tabulky mou komfortní zónou. Jenže také vím, že třeba pro lidi z marketingu jsou tabulky spíš noční můrou v zóně strachu.

S tím, jak rostl objem a důležitost dat všude kolem nás, jsem se začal postupně přesouvat do nového oboru, kterému můžeme říkat Data Intelligence. Předmětem zájmu tady už nejsou obchodní („byznysové“) informace vyjádřené daty, ale tato data samotná. Moje úvaha byla jednoduchá: to, co fungovalo v datových skladech (tedy relační tabulky), bude fungovat i v „meta-datových“ skladech. V oblasti porozumění datům (třeba při zobrazování závislostí mezi datovými toky – data lineage) jde přece hlavně o vztahy mezi datovými zdroji a algoritmy. Opět tedy řešíme vztahy, relace, a proto relační databáze jako správná volba technologie… Jenže chyba lávky. Nějaká neviditelná tenká hranice byla překročena.

V oblasti porozumění datům jde především o spletitou síť vzájemných vztahů. To, co nás zajímá na výstupu, už není tabulka, ale spíše mapa, síť, orientovaný graf. Ano, všechny požadované operace se síťovými grafy umíme vyřešit také v prostředí relačních databází. Ale specifické operace, jako procházení grafem, podmíněné hledání předchůdců nebo následníků, aniž byste se po cestě „zacyklili“, agregace vztahů, hledání podobností a mnohé další, jsou podstatně lépe proveditelné v takzvaných grafových databázích. Základem těchto databází už není tabulka a relace, ale uzel (vrchol) a hrana (vazba mezi vrcholy).

Rozdíl mezi relační a grafovou databází by se dal popsat asi jako rozdíl mezi itinerářem a mapou. Itinerář obsahuje většinou pouze seznam všech míst, kde máte cestou po nějaké době odbočit a dostat se tak k cíli. V mapě je mnohem více informací, máte zakreslenou svoji cestu v kontextu okolního prostředí, můžete si zvolit měřítko, a pokud z cesty sejdete, většinou stejně poznáte, kde se nacházíte.

Pointa příběhu by se dala shrnout tak, že budoucnost patří grafovým databázím. Vím, že pro velkou část odborníků na Big Data tímto obrazně řečeno objevuji Ameriku několik století po Kolumbovi. Ale jak už to tak bývá na cestě za poznáním, ušel jsem cestu tam a zase zpátky. Uvědomil jsem si totiž, že velká většina úloh nejen v Data Intelligence, ale i v oblasti Business Intelligence a podpory manažerského rozhodování, má v podstatě povahu úlohy v síťovém grafu. Tak třeba daleko více než prostý seznam klientů s nějakým vybraným ukazatelem potřebujeme znát vzorce v rámci jejich vzájemných vztahů a vazeb mezi nimi a tyto vzorce zobrazovat, kvantifikovat a porovnávat. V Data Intelligence i Business Intelligence potřebujeme nikoliv seznam a součet, ale mapy – nebo ještě přesněji: nejprve mapu a pak itinerář.

Ani tentokrát si neodpustím dovětek s odbočkou do světa fyziky. Pokud si přečtete Sedm krátkých přednášek z fyziky od Carla Rovelliho, možná vám neunikne, že například smyčková teorie gravitace nabízí obraz našeho světa, který vypadá méně jako objekt a více jako interakce vztahů. Nežijeme tedy na žádném přehledném kostičkovaném papíru, ale v bublající spleti vazeb. Abychom viděli kostičky, musíme pochopit vazby.

 

Autor: Petr Hájek

Information Management Advisor