Data Mesh: (halbwegs) einfach erklärt

Das neueste Buzzword in der Welt digitaler Innovationen heißt Data Mesh! Wer sich damit
beschäftigt, kann eine ganze Weile im Kreis rennen, ohne auch nur im Ansatz zu verstehen, was
gemeint ist … dabei ist das gar nicht so kompliziert. 

Data Mesh TLDR:

Hinter dem Buzzword „Data Mesh“ (dt. Datengewebe) versteckt sich das Konzept der Informations-Dezentralisierung mit allen Vor- und Nachteilen, die das mit sich bringt. Anstatt eines einzigen, zentralisierten Datenspeicherortes, auf dem alle Akteure Informationen bearbeiten und verwalten, gibt es hier viele verschiedene Orte, an denen Daten gespeichert, verwaltet und verarbeitet werden. Daten werden als Teil der Lieferkette begriffen und entsprechend als Bestandteil in den Produktionsablauf integriert. Über Data Governance und Domain Ownership-Regeln soll die Einheitlichkeit und Validität der Daten sichergestellt werden. Klappt das so?

Data Mesh: Paradigmenwechsel oder Buzzword-Reinfall?

Was haben File-Sharer, Crypto-Miner und mittelalterliche Mönche gemeinsam? Sie sind alle Data Mesh-Hipster – haben sich also damit beschäftigt, bevor es cool war …

Okay zugegeben, die Sache mit den Mönchen ist etwas weit hergeholt, aber es führt mich zu einem anschaulichen Beispiel, und das war es mir wert: Als die Bibliothek von Alexandria aus unerklärten Gründen mit dem Existieren aufhörte, vergaß das mediterrane Europa für ein paar Jahrhunderte, dass die Erde rund ist, sich um die Sonne dreht und eine ganze Reihe weiterer, ziemlich wichtiger Fakten. Das Wissen der antiken, griechischen Philosophen war verlorengegangen.
Erst als die Osmanen ins Oströmische Reich einfielen und unzählige griechischsprachige Gelehrte nach Italien flohen, wurden die antiken Schriften wiederentdeckt … teils als Übersetzungen aus dem Arabischen, denn islamische Gelehrte hatten nach der Eroberung ehemaliger römischer Provinzen viele Schriftrollen nach Bagdad gebracht und dort übersetzt … bis die Mongolen 1258 die Stadt niederbrannten – alles ziemlich wild.
Die Wiederentdeckung der antiken Texte löste in Europa die Renaissance aus und begründete unsere moderne Welt, wohingegen der Verlust dieses Wissens den technischen und gesellschaftlichen Fortschritt um Jahrhunderte zurückwarf.

Aber wir wollten ja über das Data Mesh reden, und das kommt jetzt auch. Die antiken Schriftrollen sind nämlich nichts anderes als Daten, die leider sehr zentral gelagert wurden und durch deren Verlust ein gewaltiger Schaden entstand. Durch Konflikte, Grenzen, Sprachen und den hohen Arbeitsaufwand beim Produzieren von Schriftrollen war es zu jener Zeit sehr schwer, Wissen (Daten) zu verbreiten, und es gab nur sehr wenige Zentren, in denen sie gelagert wurden. Entsprechend dauerte es Jahrhunderte, die Daten wieder zusammenzufinden, und es sind bei Weitem nicht alle wieder da – das Data Mesh der Spätantike war nicht besonders engmaschig.

Die christlichen Mönche des Mittelalters – da sind sie wieder – waren da schon etwas gewiefter. Sie produzierten und reproduzierten in den Skriptorien ihrer Klöster massenhaft Texte, und natürlich gab es massenhaft Klöster. Wenn also Wikinger, Ungarn, heidnische Nachbarn oder andere, wenig gottesfürchtige Heerführer vorbeikamen und ein Kloster niederbrannten, gab es noch hunderte weiterer Klöster, von denen aus das verlorene Wissen rekonstruiert werden konnte. Tatsächlich gelang es selbst den mittelalterlichen Päpsten kaum, Bücherverbote in ihren eigenen Klöstern und Universitäten tatsächlich umzusetzen, weil die Mönche dermaßen fleißig und die päpstlichen Boten dermaßen langsam waren.
Leider waren die so produzierten und reproduzierten Daten nicht besonders brauchbar, weil die Dezentralisierung eben auch den Nachteil hat, dass es schwieriger ist, Daten durch Abgleich zu validieren. Und natürlich wurden Fehler immer wieder kopiert – so flossen tausende Stunden mönchischer Arbeit in die Produktion fehlerhafter Daten. Bitter.

Die Geschichte veranschaulicht hier einige grundlegende Prinzipien der Data Mesh-Idee:

  1. Daten sind Produkte (so wie Schriftrollen).
  2. Daten können angegriffen, vernichtet, korrumpiert oder verloren werden.
  3. Wenn Daten verloren gehen, kann das massive Folgeschäden haben.
  4. Daten zu validieren ist entscheidend, insbesondere wenn sie häufig kopiert werden..
  5. Daten dezentral zu verwalten macht sie sicherer vor Verlust, aber anfällig für Fehler
  6. Grenzen, Sprachen und andere Medienbrüche erschweren den Datenaustausch.

 

Data Mesh: Strategien zur Dezentralisierung

Zum Glück sind Strategien, die im Mittelalter Daten schützen und verbreiten konnten, auch in Zeiten des World Wide Web noch zu gebrauchen. Die breite Masse hat Dezentralisierungs-Strategien zum Beispiel in der Filesharing-Ära des Internets kennengelernt. Millionen von Internet-Piraten umgingen staatliche Rechtssysteme und kopierten millionenfach Softwareprodukte. Beim dafür eingesetzten „Torrent“-System (dt. Strömung) werden Daten direkt nach Beginn des Downloads gleichzeitig zum Upload freigegeben und an andere Rechner geschickt – der Clou: Bei genügend angeschlossenen Computern kommt ein kontinuierlicher Datenstrom zustande, der auf natürliche Weise mit der Anzahl der User skaliert. Gleichzeitig kann der Datenfluss nicht durch Ausschalten eines einzelnen Knotens gestoppt werden, denn das Netz an Rechnern übermittelt fleißig weiter. Diese Idee wird im Data Mesh als CTL (Continuous transformation and loading) um eine Datentransformations-Komponente ergänzt. Die Ära der Internet-Piraterie konnte nie technisch gestoppt werden, sondern wurde schließlich vom Markt besiegt, weil Unternehmen wie Netflix, Spotify und viele Entwickler ihre Inhalte von vornherein kostenlos oder sehr günstig zur Verfügung stellten. Ein Beweis für die gewaltige Robustheit dezentraler Datenübermittlungssysteme.

In Sachen Validierung setzte die frühe Krypto-Szene Maßstäbe. So ist die inzwischen fast mythisch verklärte Blockchain-Technologie eigentlich nichts weiter als eine dezentral organisierte Datenvalidierungs-Strategie, bei der jede Transaktion einen „Ledger“ mitgibt, der, sofern möglich, mit den anderen „Ledgers“ abgeglichen wird.

better decisions group GmbH | Data Mesh visualization

Das Data Mesh-Konzept ist also weder besonders komplex, noch ist es brandneu. Es ist vielmehr einfach und eigentlich naheliegend, ist doch das Internet selbst auch eine Art Data Mesh und von „Gewebe“ zu „Web“ ist es ja auch kein weiter Weg.

Nur: Das ist nicht so ganz einfach anzulegen.

Denn im Gegensatz zu Data Warehouses und Data Lakes, die letztlich zentrale Verwaltungssysteme sind, für die ein Unternehmen einen Server haben oder anmieten muss, ist ein Data Mesh ein potenziell riesiges Infrastruktur-Konzept, in dem Data Warehouses und Data Lakes als kleine Bausteine integriert werden können. Unternehmen brauchen für ein funktionierendes Data-Mesh also vermutlich dutzende physische Datenspeicherorte oder müssen mit einem Netz-im-Netz Ansatz auf den bestehenden Kapazitäts-Markt im Web zugreifen.

Data Governance

Dass das Wissen aus den antiken Schriftrollen über viele Jahrhunderte verloren ging, lag auch daran, dass sie in verschiedensten Sprachen verfasst waren. Selbst Schriftstile und sogar Schreibnormen, die wir heute gar nicht mehr hinterfragen, gab es nicht. So schrieben antike Gelehrte in scriptura continua – buchstäblich ohne Punkt und Komma … und Leerzeichen. Hätten sie sich auf einheitliche Schreibnormen einigen können, wäre die Renaissance womöglich zweihundert Jahre früher eingetreten. Wieder waren es übrigens die schreibwütigen Mönche, denen wir nicht nur das lateinische Alphabet, sondern auch grundlegende Schreibnormen verdanken. Der berühmteste, Martin Luther, gilt nicht umsonst als Begründer der deutschen Einheitssprache.
Der Punkt ist: Regeln beim Erzeugen, Teilen, Kopieren und Löschen von Daten sind unabdingbar, um ihre Verwendbarkeit zu gewährleisten. „Data Governance“ nennen wir das auf Buzzword, „Regelwerk“ auf Gutdeutsch. Welche Formate werden verwendet, wie wird wo und durch wen transformiert, wie werden Dokumente benannt, wie tabellarisch erfasst – fast alle Unternehmen geben sich irgendwann datenbezogene Regeln. Bei einem Data Mesh müssen solche Regeln verfestigt sein und am besten das System konstituieren, so dass sie ohne menschliches Zutun umgesetzt werden. Data Governance-Regeln müssen das digitale Äquivalent zu den Kräften der Physik sein – permanent aktiv und unumgehbar. Bei der Umsetzung und Überwachung solcher Regeln kann KI eine entscheidende Rolle spielen; ein menschliches Team wird kaum fähig sein, die notwendige Konsistenz aufrechtzuerhalten.

Daten als Produkte

Zentral für den Data Mesh-Gedanken ist die Überlegung, dass Daten Produkte sind, die einen Produzenten und einen Konsumenten haben. Im Gegensatz zu unserem antiken Schriftrollen-Beispiel sind die Konsumenten und Produzenten in modernen Data Mesh-Konzepten häufig keine Menschen, sondern selbst Algorithmen – der Mensch steht jeweils am Anfang und am Ende der Datenwertschöpfungskette. Er ist also in der Regel der Produzent der untersten Datenebene und der Konsument der obersten. Der Grund dafür liegt in der Schnittstelle zwischen analoger und digitaler Arbeit und in der Pyramidenarchitektur moderner Datenebenen.
In jedem Artikel zum Thema Data Mesh wird dieser Produktgedanke hervorgehoben. Dabei geht es vor allem um die Ökonomisierung und Privatisierung von Datendiensten. Analog zu … pardon, analogen … Lieferketten würde ein Unternehmen im Data Mesh Rohdaten anbieten und auf einem digitalen Datenmarkt an den Meistbietenden verkaufen, der diese Daten dann mit Datenmodellen verfeinert, auswertet und zu komplexeren Produkten macht – um sie dann weiterzuverkaufen. Damit sich das Ganze nicht so sehr nach Überwachungskapitalismus anhört, sind allerdings alle Marktteilnehmer Teil eines „Teams“, das jeweils einen Datenauswertungs-Bereich, eine Domain, verwaltet.

Domain Ownership

Sie haben nun beispielsweise ein Team, das sich nur darum kümmert, dass die Daten im Data Mesh korrekt formatiert sind, und das entsprechend nichts anderes tut, als den CTL-Prozess (Continuous Transformation & Loading) zu steuern und zu verfeinern. Ein anderes Team ist dafür zuständig, die Daten zu clustern und in entsprechende Datengruppen zu zerteilen, und wieder ein anderes muss sie visualisieren. Ganz so, als würde man Pergament-Schriftrollen produzieren und auf dem antiken Wissensmarkt feilbieten. Knackpunkt ist halt der Markt – denn nur auf dem Markt kann Wettbewerbsdruck zu Innovation und Preisminderung führen, denn darum geht es natürlich letzten Endes. Es muss also Anreize für Domain Owners geben, innovativ zu sein. Außerdem brauchen sie einen gewissen Grad an Experimentierfreiheit.

Sicherheit

Als aufmerksamem Leser ist Ihnen sicher schon eine Schwierigkeit aufgefallen, die dem Data Mesh-Konzept inhärent ist: Datensicherheit ist in dezentralen Systemen viel schwieriger zu gewährleisten als in zentralen Systemen.
Zur Veranschaulichung ein Vergleich: Das europäische Energienetz ist wegen seiner Größe und der hohen Anzahl an Stromproduzenten sehr widerstandsfähig gegen Phasen mit starkem Abruf, kann außerordentlichen Belastungen standhalten und sogar einen konzertierten kriegerischen Angriff auf die Energieinfrastruktur eines angeschlossenen Landes ausgleichen.
Gleichzeitig können Bastler auf einem alten Bauernhof jahrelang eine Bitcoin-Mine oder eine Hanfplantage mit gestohlenem Strom betreiben, ohne dass es jemandem auffiele.
Beim Data Mesh verhält es sich ähnlich. Das System selbst ist kaum kleinzukriegen, Ransomware- DDOS- oder Hardwareangriffe sind wegen des dezentralen und diversifizierten Charakters eigentlich zum Scheitern verurteilt. Anders sieht es bei Spyware und Datendiebstahl aus – durch den permanenten Datenstrom über viele Knoten hinweg könnten Sicherheitslücken lange unentdeckt bleiben und Daten von außen abgegriffen werden. Sensible Informationen müssten also mit End-to-End-Verschlüsselung zwischen „Hochsicherheits-Speichern“ auf knotenfreien Strecken bewegt werden … also so, wie es jetzt auch schon geschieht, und wir wissen, wie häufig Unternehmen zum Beispiel Kundendaten verlieren.

Das heißt, wenn es darum geht, ein System zu stabilisieren und Störungen auszuschließen, ist ein Data Mesh eine echte Alternative. Wenn es um die Sicherheit individueller Daten geht, eher nicht.

Für wen ist ein Data Mesh eine gute Idee?

Unternehmen, die sehr groß sind oder über Händler- oder Partner-Konzepte, Fusionen oder Konzernstrukturen sehr viele Untereinheiten haben, leiden oft unter großen Schwierigkeiten, zentrale Verwaltungskonzepte einzuführen. Sie können von einem Data Mesh-Ansatz doppelt profitieren.
Denn in der Regel haben viele Untereinheiten auch viele eigene IT-Systeme, die bei Zentralisierungs-Projekten eingedampft werden müssen. In einem Data Mesh werden sie stattdessen eingebunden und können erhalten bleiben – beziehungsweise ihr Vorhandensein macht ein Data Mesh-Projekt in der Umsetzung sogar viel einfacher. Ein anderer wichtiger Indikator ist der Wert von erhobenen Daten – also wie hoch die „Marge“ bei der Datenauswertung ist und wie viele Daten als Nebenprodukte abfallen.
Große IT- und Telekommunikationsunternehmen haben beispielsweise häufig schon komplexe Server- und Data Storage-Systeme, profitieren außerordentlich stark von erhobenen Daten und produzieren sie auch nebenbei en masse. Solche Unternehmen scheitern bei herkömmlichen Digitalisierungsprojekten überproportional häufig – ein Data Mesh könnte hier wirklich eine gute Lösung sein.

Für wen ist Data Mesh keine gute Idee?

Unternehmen, die stark bewachte, hochsichere Systeme brauchen, um hochsensible Daten zu verwalten, sollten nicht auf ein Data-Mesh setzen – zumindest solange nicht, bis die relevanten Sicherheitsfragen geklärt sind.
Auch mittelgroße oder stark zentralisierte Unternehmen sollten vorsichtig abwägen. Grundsätzlich ist eine zentrale Verwaltungsstrategie gut auf ein Data Mesh erweiterbar, der umgekehrte Weg ist hingegen beinahe unmöglich – das gilt es zu bedenken. Und: Erinnern Sie sich daran, wie schwer die internationale Staatengemeinschaft es hat, im Internet, dem größten aktiven Data Mesh, Rechtssicherheit und Verantwortlichkeit zu schaffen. Es gibt kein Unternehmen, dem das Web gehört, und gäbe es eines – es würde in Grund und Boden verklagt.

Ein Data Mesh ist kein Serviceprodukt und kein Digitalisierungsprojekt – es ist ein paar Nummern größer und bedingt schlussendlich den Sprung einer Organisation auf die globalstrategische Ebene. Ob und inwieweit ein Data Mesh-Konzept zukünftig relevante Vorteile gegenüber zentralisierten Systemen bietet, wird von Fall zu Fall unterschiedlich sein und geklärt werden müssen. Fakt ist: Die aktuell leistungsfähigsten Softwaresysteme zum Verwalten, Visualisieren und Verwenden von Daten sind auf zentralisierte Systeme ausgerichtet.
Inwieweit Business Intelligence-, Performance- und Planungslösungen auf ein Data Mesh-Netzwerk adaptierbar sind, hängt mit der grundsätzlichen Flexibilität dieser Systeme zusammen … und natürlich mit den Spezialisten, die das dann operativ umsetzen – es wird eine Menge fleißiger Mönche brauchen. 🙂

Sie möchten ein solches Tool in Aktion sehen? Kontaktieren Sie uns einfach und lernen Sie bdg ONE | Finance kennen.

Mit bdg ONE | Finance erhalten Sie Genauigkeit und Geschwindigkeit. Die Lösung ermöglicht eine effektivere und effizientere Finanzsteuerung und -planung, während sie gleichzeitig ein konsistentes, integriertes Finanzbudget in wesentlich kürzerer Zeit bereitstellt. Darüber hinaus kann bdg ONE | Finance komplexe Szenarien schnell berechnen und ermöglicht aufgrund des modularen Ansatzes eine nahtlose Integration vordefinierter Finanzinhalte und anderer Abteilungen.

Buchen Sie jetzt eine Demo, um bdg ONE | Finance in Aktion zu sehen!

Coming Events

RELATED POSTS