V jakékoliv větší organizaci by data lineage měla bezpochyby být klíčovou komponentou Data Governance. Přesto často vidíme, že sledování toků a závislostí dat se i ve velkých firmách daří spíše jen uvnitř menších a uzavřených ostrůvků postavených kolem specifických technologií zpracování dat nebo specializovaných frameworků. A to zejména pokud chceme sledovat lineage na úrovni atomicky detailních informací (tedy tzv. column-level lineage) nebo pokud usilujeme o absolutní přesnost a úplnost sesbíraných metadat.
Pro tyto organizace je však čím dál náročnější rozšiřovat jejich vlastní schopnost sledovat end-to-end závislosti napříč celým datovým prostředím. To je totiž obvykle tvořeno technologicky heterogenními prostředími, mnoha různými systémy pro zpracování dat a stále častěji také kombinacemi cloudové a on-premise infrastruktury.
Jinými slovy, zatímco v minulosti byli uživatelé docela spokojeni s informací, co se děje s jejich daty uvnitř třeba jedné nebo dvou datových vrstev datového skladu, nyní analytici data lineage chtějí end-to-end pohled na celý datový „potravní řetězec“. Tedy, že například konkrétní zkoumaný datový element má původ například v mobilní aplikaci, z níž byla následně data integrována a transformována do cloudové platformy, v dalším kroku byla replikována do on‑premise databáze, a nakonec byla koncovým uživatelům prezentována jako součást jejich měsíčního dashboardu.
V oboru, který bych nazval celopodnikovou (enterprise-wide) data lineage, vyniká nástroj MANTA. Za prvé, MANTA má za cíl, aby jejím prostřednictvím bylo možné připojit se k jakékoli technologii zpracování dat a zpětným inženýrstvím rozpoznat, jaké datové toky a pravidla datových transformací jsou v ní implementovány. To buď znamená parsování zdrojového kódu (jeho analýzu a transformaci výsledku do grafové databáze zakreslující všechny datové závislosti na nejvyšší atomární úrovni), nebo využití interních metadat poskytovaných touto specifickou technologií, případně kombinaci obou přístupů. Za druhé, MANTA integruje všechny části metadat shromážděných z různých technologií dohromady tím, že identifikuje společně sdílené datové objekty. Například to, co je viděno z perspektivy cloudového řešení v Databricks jako objekt X ve složce „external locations“, může být zároveň tabulkou Y ve vaší lokální databázi Oracle. Pro celopodnikovou data lineage je klíčové, abychom pod těmito zdánlivě odlišnými odkazy rozpoznali identické objekty. A MANTA usiluje o to, aby tuto funkci zajistila pro jakoukoli dvojici technologií zpracování dat.
Vidíme, že počet technologií zpracování dat a cloudových platforem neustále roste. To je důvod, proč datoví experti globálně hledají určité řešení pro sjednocení metadatových modelů, které by si mohli vzájemně vyměňovat v zájmu snazšího sledování a analýzy data lineage. Například MANTA spolupracuje s projektem OpenLineage a plánuje integraci jakékoliv technologie, která je integrována s projektem OpenLineage (OL). Tyto technologie se nazývají OL Producers. Toho má dosáhnout pomocí svého generického MANTA OpenLineage konektoru, který je v současné době ve fázi vývoje a testování. MANTA plánuje nejprve uvést verzi tohoto konektoru pro table-level lineage převzatou z hotových metadat OpenLineage modelu a později se zaměřit na column-level detail za pomoci svých parserů zdrojového kódu.
I když se může zdát, že celopodniková data lineage je primárně záležitostí technologií a specifických nástrojů, jako je MANTA, musíme zdůraznit, že správné nastavení Data Governance v rámci firmy bude vyžadovat odbornost vysoce kvalifikovaných profesionálů v oboru správy metadat a data lineage. Je jisté, že v dlouhodobém horizontu bude nutné takovou odbornost udržovat interně uvnitř každé organizace. Pravděpodobně však bude zapotřebí ji nastartovat ve spolupráci s některou z dodavatelských společností se specializovanými odbornými službami v této oblasti.
Autor: Petr Hájek
Information Management Advisor