Jedes moderne Unternehmen steht heute vor der wichtigen Entscheidung, wie es seine Datenarchitektur gestalten will. In diesem Zusammenhang werden oft zwei deutlich unterschiedliche Ansätze genannt: Data Lake und Data Warehouse. Historisch gesehen haben beide immer ein gemeinsames Ziel verfolgt: mit Hilfe von Daten ein tiefes Verständnis für die Geschäftstätigkeit eines Unternehmens zu erlangen und durch deren Verarbeitung die Managemententscheidung auf allen Ebenen zu unterstützen. Im Laufe der Zeit begann auch die maschinelle Datenverarbeitung die Entscheidungsprozesse des Managements zu unterstützen (sei es durch einfache Entscheidungsmodelle oder durch komplexere statistische Modelle und durch maschinelles Lernen generierte Modelle).
Wie üblich hat jeder der beiden Ansätze seine Vor- und Nachteile sowie seine Befürworter und Gegner. Es war daher nur eine Frage der Zeit, bis jemand den klassischen Marketingtrick anwendet, die Vorteile beider Vorgänger auf wundersame Weise so attraktiv zu kombinieren, dass die Schwächen übersehen werden. Und um es allen klar zu machen, kombinierte man auch die Namen der Vorgänger und kreierte den poetisch klingenden Namen „Lake House“.
Eine Lagerhausbesichtigung oder ein Schwimmen im See?
Erinnern wir uns, dass das viel ältere Konzept eines „klassischen“ Data Warehouse einen strukturierten und organisierten Ansatz für eine umfassende Datenverarbeitung und -analyse bietet. Es bietet somit eine zuverlässige Grundlage, auf der ein verlässliches und konsolidiertes Datenmodell aufgebaut werden kann. Dieses Modell definiert eine einzige Version der Wahrheit und stellt sicher, dass die verschiedenen Abteilungen eines Unternehmens mit identischen Daten arbeiten und zu ähnlichen Ergebnissen kommen. Der Kern eines Data Warehouse bietet eine Business Intelligence-Plattform, die das gegenseitige Verständnis und die Interpretation der wichtigsten Leistungsindikatoren des Unternehmens erleichtert. Dieser Ansatz ist die Grundlage für effektives Projektmanagement, Planung und strategische Entscheidungsprozesse. Die Nachteile von Data Warehouses sind ihre Zentralisierung und Schwerfälligkeit, die sich in einem langwierigen Prozess der Implementierung von Änderungen (Time-to-Market) und den Kosten für den Betrieb und die Weiterentwicklung widerspiegeln.
Im Gegensatz dazu bietet ein Data Lake eine größere Flexibilität und die Möglichkeit, unstrukturierte und teilweise unbekannte Daten zu verarbeiten, unabhängig von ihrem Volumen. Einer der Hauptvorteile ist die Fähigkeit, schnell auf sich ändernde Anforderungen zu reagieren und die Erstellung von analytischen Ergebnissen zu erleichtern. Der Zugang zu den Daten innerhalb eines Data Lake ist demokratischer, so dass ein breiterer Benutzerkreis ohne größere technische und organisatorische Einschränkungen an der Analyse und der Erstellung von Berichten teilnehmen kann. Auf der anderen Seite kann es zu einem gewissen Mangel an Organisation, Inkonsistenz, Unvergleichbarkeit der Ergebnisse und einer verminderten Fähigkeit zur Kontrolle der Daten kommen ( sowohl aus der Sicht des Effizienzmanagements des Unternehmens als auch aus der Sicht der Informationssicherheit).
Der Traum vom Seehaus
Das Lake House-Konzept kombiniert das Beste aus beiden Welten: die Flexibilität und Schnelligkeit des Zugriffs, die ein Data Lake bietet, und die Struktur und Organisation eines Data Warehouse. Eines der wichtigsten Tools ist die konsequente Verwendung von Metadaten in allen Phasen der Arbeit. Dies ist wirklich lobenswert. Allerdings konzentriert sich Lake House nur auf bestimmte Aspekte der Systeme für die Arbeit mit Daten, und zwar auf solche, die in erster Linie technischer Natur sind. Mit anderen Worten, auf Aspekte, die typischerweise von einzelnen Nutzern von Datensystemen wahrgenommen werden: Wie schnell kann ich herausfinden, auf welche Daten ich zugreifen kann und wie schnell kann ich auf diese Daten zugreifen?
In der Tat gibt es viele „Use Cases“, die nur die Aktivitäten einzelner Abteilungen oder agiler Teams betreffen. Die größte Herausforderung bei der Arbeit mit Daten besteht jedoch darin, die Aktivitäten auf Unternehmensebene zu koordinieren und ein gemeinsames Verständnis der Unternehmensdaten und deren gemeinsame Interpretation zu erreichen.
Die Übernahme des Lake-House-Konzepts kann leicht dazu führen, dass die Datenwahrheit verschwindet. Die Datenwahrheit ist jedoch von entscheidender Bedeutung, um eine Einigung zwischen den verschiedenen Teilen eines Unternehmens zu erzielen und sicherzustellen, dass alle mit denselben Informationen arbeiten. Die so genannte „single version of the truth“ kann nur auf einem konsolidierten Datenmodell mit historisch stabilen (konsistenten, vergleichbaren) Daten funktionieren. Und ein solches Modell kann nur in einer auf Data-Warehouse-Prinzipien basierenden Lösung aufgebaut und gepflegt werden.
Die Wahrheit
Letztendlich ist das Lake House-Konzept zwar innovativ und bietet gewisse Vorteile, aber wir dürfen das Grundprinzip des Data Warehouse – eine Version der Datenwahrheit für das gesamte Unternehmen – nicht übersehen. Eine optimale Datenarchitektur, die Flexibilität und Geschwindigkeit unterstützt und gleichzeitig die Konsistenz und Zuverlässigkeit der gemeinsamen Daten im gesamten Unternehmen gewährleistet, könnte durch eine Kombination aus beiden Ansätzen erreicht werden.
Wenn wir jedoch die Behauptungen über die Selbstversorgung von Lake House unkritisch akzeptieren, könnte es sein, dass wir unseren Traum von einem Haus am See nicht leben, sondern in einem Hausboot landen. Das wäre zwar auch ein attraktiver Lebensstil, aber er steht eben nicht auf dem festen Boden, den die meisten modernen Unternehmen für ihren Erfolg benötigen.
Autor: Petr Hajek