Im letzten Monat fand in der Česká spořitelna in Zusammenarbeit mit Profinit und MANTA ein lang erwarteter Hackathon statt, der sich mit der effizienten Extraktion von Informationen über die Datenherkunft befasste. Die erfolgreiche Veranstaltung hat nicht nur den Teilnehmern aus den veranstaltenden Unternehmen, sondern auch Studenten und der Fachöffentlichkeit einige sehr interessante Erkenntnisse gebracht.
Mithilfe des MANTA-Tools bereiteten wir im Vorfeld eine riesige Datenbank vor, die in sehr detaillierter Form alle Möglichkeiten des Datenflusses von den Quellsystemen zu den Endnutzern über robuste Datenlösungen wie Data Lake, Data Warehouse, analytische Datenbanken oder Abschlussberichte beschreibt.
Die Aufgabe war klar: Man nehme ein vorbereitetes Paket von Metadaten und „erzähle“ die Geschichte der komplexen und reich verzweigten internen Datenflüsse neu, um im Idealfall ein klares und einfaches Bild zu erhalten, das für den Durchschnittsbürger lesbar ist.
Die Teilnehmer konnten aus drei Technologien wählen: Die Oracle relationale Datenbank, die Neo4j Graphdatenbank und die Databricks Cloud-Plattform, die die Verwendung der Sprache Spark oder spezifischer Libraries für die Datenverarbeitung ermöglicht. Zur Visualisierung der Ergebnisse konnte entweder Neo4j selbst, das Open-Source-Tool PlantUML oder das spezielle Tool Cluemaker verwendet werden.
Die erste angenehme Feststellung war das Interesse an der Graphdatenbank Neo4j. Obwohl die meisten angemeldeten Teilnehmer Oracle als ihre bevorzugte Technologie angaben, ergriff eine beträchtliche Anzahl von Teilnehmern die Gelegenheit, die Graphabfragesprache auszuprobieren. Der Start des Hackathons erinnerte daher teilweise an einen Workshop, in dem erfahrenere Graphenspezialisten den Mitgliedern anderer Teams halfen, die Grundlagen von Neo4j zu beherrschen. Schnell wurde klar, dass es in einer großen Bank weit über die Datenabstammung hinaus viele weitere „Use Cases“ gibt, für die eine Graphdatenbank ein sehr geeignetes Werkzeug wäre und es sich langfristig auszahlen würde, Kompetenz in dieser Technologie aufzubauen.
Eine weitere Erkenntnis war, dass schon die Bereitstellung von „groben“ Metadaten, die die Datenabfolge beschreiben, bei vielen täglichen Aufgaben, wie z.B. bei verschiedenen Auswirkungsanalysen oder der häufigen Fehlersuche in Berichten, eine erhebliche Arbeitserleichterung bedeuten kann. Da MANTA ein klares generisches Metadatenmodell bereitstellt, ist es für ein breites Spektrum von Nutzern, selbst für solche mit nur grundlegenden Kenntnissen der Datenanalyse, einfach, schnell Antworten auf ihre Fragen zu finden.
Die Vorbereitung des Hackathons selbst, bei der viele Sicherheitsanforderungen zu erfüllen waren, hat auch gezeigt, dass der Metadatenkern keine sensiblen Daten über die Datenherkunft enthält und daher frei an ein breites Spektrum von Analysten verteilt werden kann. Mit anderen Worten, die allgemeine Regel, dass die Daten selbst (und insbesondere Bankdaten) sorgfältig geschützt werden müssen, während die Metadaten transparent und weithin verfügbar sein sollten.
Aber das Wichtigste war die Bestätigung der erwarteten Tatsache, dass Metadaten eine große Menge an Informationen verbergen. So hielten wir zu Beginn der Veranstaltung einen Vortrag über die häufigsten Fälle der Verwendung von Datenabstammungen, und wir waren überrascht, wie viele andere nützliche Beispiele die Teilnehmer selbst für ihre tägliche Arbeit fanden.
Eher eine lustige Kuriosität war der hyperbolische Versuch zu berechnen, wie viel die Hochzeit eines ihrer Kunden die Bank kostet – mit anderen Worten, wie viele UPDATE-Operationen auf der Spalte mit dem Nachnamen in den einzelnen Tabellen und wie viele Historisierungssätze durchgeführt werden müssen, um diese Änderungen zu berücksichtigen.
Ein anderes Beispiel war der Versuch, zu berechnen, wie viel Strom für die Erstellung eines bestimmten Berichts für die Europäische Zentralbank verbraucht wird. Die verfügbare Metadatenstichprobe würde für diese Aufgabe aber offensichtlich nicht ausreichen. Es wäre jedoch möglich, andere Möglichkeiten zu erörtern, wie Metadaten mit anderen Ressourcen angereichert werden könnten, z. B. mit den finanziellen Kosten für den Betrieb bestimmter Datenplattformen oder der Leistung bestimmter Server.
Und hier ist die wichtigste Erkenntnis für mich persönlich: Wir würden einen rasanten Zuwachs an Nutzen erzielen, wenn wir Metadaten aus verschiedenen Quellen systematisch integrieren und technische, betriebliche und „geschäftliche“ Metadaten kombinieren.
Das Grundprinzip muss sein, manuelle Arbeit zu eliminieren und die maschinelle Verarbeitung von Metadaten zu maximieren. In den abschließenden Präsentationen sahen wir unter anderem den Einsatz fertiger maschineller Lernmodelle, die darauf abzielen, den komplexen Baum der Abhängigkeiten besser zu „beschneiden“, entweder horizontal (Vereinfachung der hierarchischen Abhängigkeiten von Datenobjekten, Clustering von Tabellen usw.) oder vertikal (Überspringen und Aussortieren unwichtiger Zwischenschritte in Datenprozessen).
Der Hackathon bestätigte, dass sich Investitionen in die Verarbeitung und Nutzung von Metadaten (und zwar weit mehr als nur Metadaten, die die technische Datenabfolge beschreiben) durchaus lohnen und dass strategische Weitsicht in diesem Bereich großen Organisationen in naher Zukunft entscheidende Wettbewerbsvorteile bringen wird.
Autor: Petr Hájek
Berater für Informationsmanagement