Dům u jezera, nebo hausbót? Diskuse kolem konceptu Lake House

V životě každé moderní firmy dnes patří rozhodnutí o podobě datové architektury k těm klíčovým. Často se v této souvislosti skloňují dva do značné míry odlišné přístupy: Data Lake a Data Warehouse. Historicky oba vždy sledovaly společný cíl: pomocí dat poznat do detailu vlastní obchodní činnost firmy a jejich zpracováním podpořit manažerské rozhodování na všech úrovních. Postupem se k manažerskému rozhodování přidalo také rozhodování strojové (ať už pomocí jednoduchých rozhodovacích modelů nebo přes složitější statistické modely až po modely vzniklé strojovým učením).

Jak už to tak bývá, každý z obou přístupů má své klady a zápory a také své zastánce a odpůrce. Bylo tedy jen otázkou času, než někdo přijde s klasickým obchodnickým trikem, kdy do nového produktu zázračně spojí výhody obou předchozích tak líbivě, že na nedostatky už ani nezbude prostor. A aby to bylo všem zřejmé, spojí také vybraná slova ze jmen svých předchůdců a vnikne tak poetický název Lake House.

dum u jezera

Prohlídka skladu, nebo koupání v jezeře?

Připomeňme si, že mnohem starší koncept “klasického” datového skladu nabízí strukturovaný a organizovaný přístup ke komplexnímu zpracování a analýze dat. Přináší tak pevný základ, na němž lze vybudovat spolehlivý a konsolidovaný datový model. Tento model slouží jako definice jedné verze pravdy, což zajišťuje, že různá oddělení firmy pracují s totožnými daty a přicházejí k podobným závěrům. Jádro Data Warehouse poskytuje platformu pro Business Intelligence, která napomáhá vzájemnému porozumění a interpretaci klíčových výkonnostních ukazatelů firmy. Tento přístup je základem pro efektivní řízení, plánování a strategické rozhodování. Nevýhodou datových skladů je jejich centralizovanost a těžkopádnost, která se promítá do zdlouhavého procesu zavádění změn (time-to-market) a také nákladů na jejich provoz a další rozvoj.

Naproti tomu Data Lake poskytuje celkově větší flexibilitu a schopnost zpracovávat nestrukturovaná a předem ne vždy úplně známá data bez ohledu na jejich objem. Jedním z hlavních benefitů je jeho schopnost rychle reagovat na měnící se požadavky a rychle umožnit vytváření analytických výstupů. Přístup k datům v rámci Data Lake je demokratičtější, což umožňuje širšímu spektru uživatelů účastnit se analýz a tvorby reportů bez zásadních technických a organizačních omezení. Nevýhodou pak může být určitá neorganizovanost, nejednotnost, neporovnatelnost výstupů a nižší možnost kontroly aktivit nad daty (ať už z pohledu řízení efektivity firmy nebo z pohledu informační bezpečnosti).

Sen o domě u jezera

Koncept Lake House v sobě spojuje nejlepší z obou světů: flexibilitu a rychlost přístupu z Data Lake a strukturovanost a organizaci z Data Warehouse. Jedním z hlavních nástrojů je důsledné využívání metadat ve všech fázích práce. To je naprosto chvályhodné. Nicméně, Lake House se zaměřuje pouze na některé aspekty systémů pro práci s daty a sice ty, které jsou víceméně technické. Nebo ještě jinak, na ty aspekty, které jsou vnímané zpravidla individuálními uživateli datových systémů: jak rychle se dozvím, jaká data mohu mít k dispozici a jak rychle se k nim dostanu.

Určitě existuje velké množství „případů užití“ (use cases) s dopadem pouze do činnosti jednotlivých oddělení nebo agilních squadů. To nejtěžší na práci s daty je ale koordinace činností na úrovni celé firmy, společné porozumění firemním datům a jejich sdílená interpretace.

Adopcí Lake House může snadno dojít k rozptýlení datové pravdy. Ta je přitom klíčová pro dosažení shody mezi různými částmi firmy a pro zajištění toho, že všichni pracují se stejnými informacemi. Příslovečná „jednotná verze pravdy“ může fungovat pouze na konsolidovaném datovém modelu s historicky stabilními (rozuměj konzistentními, porovnatelnými) daty. A takový model může vzniknout a být dlouhodobě udržován pouze v řešení postaveném na principech Data Warehouse.

Pravda

V konečném důsledku je koncept Lake House sice inovativní a nabízí určité výhody, ale nesmíme přehlížet klíčový princip Data Warehouse – jednu verzi pravdy pro celou firmu. Syntéza obou přístupů může vést k optimální datové architektuře, která podporuje flexibilitu, rychlost a zároveň zajišťuje konzistenci a spolehlivost sdílených dat napříč celou firmou.

Pokud bychom uvěřili proklamacím o samospasitelnosti Lake House, mohlo by se nám stát, že místo ve slibovaném domu u jezera skončíme v hausbótu, který sice také umožňuje zajímavou formu bydlení, ale přeci jen je postavený trochu „na vodě“.

 

Autor: Petr Hájek