Aktuelles

Mit Data Catalogs Daten effizienter nutzen

Kataloge haben schon immer dabei geholfen, Ordnung in großen Datenbeständen zu halten.Andrey_Kuzmin – shutterstock.com Viele Unternehmen tun sich nach wie vor schwer damit, Daten als wertvolle Ressource effektiv zu nutzen. Ein Data Catalog als eine Art von digitalem Inventarverzeichnis für Unternehmensdaten, kann hier Abhilfe schaffen. Er verspricht Transparenz über die vorhandenen Datenbestände und ermöglicht es, Daten zu finden, zu verstehen und effizient zu nutzen. Das CBA Lab hat in einem Whitepaper zusammengefasst, worum es bei Daten Catalogs geht und was sie können müssen. Außerdem zeigen praktische Erfahrungen aus sechs Unternehmen, welche Vorgehensweisen bei der Einführung und bei der Nutzung sinnvoll sein können. Viele Unternehmen kämpfen mit sogenannten Datensilos – isolierten Datenstrukturen, die den Zugriff und die Nutzung von Daten erschweren. Ein Data Catalog kann diese Silos aufbrechen und eine einheitliche Datenplattform schaffen. Dadurch wird nicht nur die Transparenz erhöht, sondern auch die Zusammenarbeit zwischen verschiedenen Abteilungen und Teams gefördert. Eine wichtige Voraussetzung für Data Catalogs ist allerdings eine funktionierende Data Governance, die den Rahmen bildet für die Verwaltung und Kontrolle von Daten. Gemeinsam bilden sie ein starkes Duo, das Unternehmen dabei unterstützt, ihre Daten effektiv zu nutzen und gleichzeitig die Einhaltung von Datenschutzbestimmungen und anderen regulatorischen Anforderungen sicherzustellen. Ein weiterer wichtiger Aspekt ist die Betonung von Metadaten. Sie helfen dabei, den Kontext und die Bedeutung von Daten zu verstehen. Ein Data Catalog sollte daher in der Lage sein, Metadaten zu erfassen und zu verwalten, um das Datenverständnis im Unternehmen zu fördern. 7 Schlüsselfähigkeiten sollte ein Data Catalog mitbringen Das Analyse- und Beratungsunternehmen Gartner spricht von sieben Schlüsselfähigkeiten, über die moderne Data Catalogs verfügen sollten: Semantische Suche: Die Fähigkeit, semantische Suche über die gesamte IT-Landschaft hinweg durchzuführen, unabhängig davon, ob die Daten strukturiert oder unstrukturiert sind. Intelligente Metadatenbefüllung: Automatisches Durchsuchen und Kuratieren des Metadaten-Repositories mit automatischer Aufnahme. Datenprofilierung: Struktur und Qualität der Daten sollten bekannt sein. Dafür lässt sich der gesamte Datensatz profilieren oder eine intelligente (ML generiert) Stichprobe verwenden. Datenherkunft und -nutzung: Grafische Darstellungen von Datenmodellen und Datenherkunft sowie die Fähigkeit, die Nutzung von Daten, Analysen und/oder Berichten zu verfolgen. Kuratierte Empfehlungen: Empfehlungen zur besten Abfrage der Daten; Empfehlungen zur Einhaltung von Compliance; Einschätzungen zum Risiko der Nutzung; Empfehlungen zur besten Art der Verschlagwortung. Vorgefertigte Workflows: Workflows für das Testen, Zertifizieren und Veröffentlichen von Datensätzen und deren Bereitstellung für gängige Ziele. Unterstützung für Benutzerkollaboration und Crowdsourcing: Beispielsweise können Datenverwalter, Analysten oder andere Fachexperten zur Bestätigung und Anreicherung von Metadateninhalten beitragen. Erfolgreiche Implementierung: Best Practices aus der Praxis Die Einführung eines Data Catalogs birgt jedoch einige Herausforderungen. Es erfordert eine klare Strategie, die Unterstützung des Managements und ein engagiertes Team. Experten empfehlen einen schrittweisen Ansatz, beginnend mit Pilotprojekten oder MVPs (Minimum Viable Products), um den Wert des Data Catalogs zu demonstrieren und schrittweise auszuweiten. Doch wie sieht die Umsetzung in der Praxis aus? Im Rahmen des Workstream des CBA Lab teilen sechs Unternehmen, die bereits Data Catalogs implementiert haben, ihre Erfahrungen und geben Einblicke in die Herausforderungen und Erfolgsfaktoren. Hier ein Überblick über ihre Einsichten: Was bringt ein Data Catalog? Die befragten Unternehmen betonen die Rolle des Data Catalogs als zentrale Anlaufstelle für alle datenbezogenen Informationen. Er dient als “Single Source of Truth” und schafft Transparenz über vorhandene Daten, deren Qualität und Nutzungsmöglichkeiten. “Ein Data Catalog ist ein digitales Inventar und Inhaltsverzeichnis, das sämtliche definierte Metadaten über gemanagte Daten Assets im Unternehmen enthält.” Warum einen Data Catalog implementieren? Die Gründe für die Implementierung sind vielfältig. Sie reichen von der Notwendigkeit, Datensilos aufzubrechen und eine einheitliche Datenplattform zu schaffen, über die Verbesserung der Datenqualität und -governance bis hin zur Steigerung der Effizienz in der Datenverarbeitung. “Unser Ziel war es, von isolierten Datenstrukturen wegzukommen und stattdessen eine einheitliche Datenplattform zu schaffen, die auch eine bestimmte Governance beinhaltet.” Welche Use Cases wurden umgesetzt? Die Unternehmen haben den Data Catalog für verschiedene Anwendungsfälle eingesetzt. Dazu gehören die Erstellung eines zentralen Business Glossars, die Einführung von Reporting-Katalogen, die Entwicklung von Datenmodellen und die Implementierung von Data Lineage, um die Herkunft und den Fluss von Daten nachzuvollziehen. “Das Hauptziel des Data Catalog war es, eine Verbindung zwischen den Datenproduzenten und den Datenkonsumenten zu schaffen und die Dokumentation dieser Daten zu erleichtern.” Welche Voraussetzungen sind für die Einführung eines Data Catalogs notwendig? Die Unternehmen betonen die Wichtigkeit der Unterstützung durch das Management, eine klare Kommunikation des Nutzens des Data Catalogs, die Etablierung klarer Zuständigkeiten und Governance-Strukturen sowie ein engagiertes Team mit verschiedenen, sich ergänzenden Fähigkeiten. “Ein tiefes Verständnis darüber, wie man mit Daten umgeht, ist entscheidend. Das Unternehmen sollte eine Kultur schaffen, in der Daten als wertvolles Gut betrachtet werden und in der die Mitarbeiter verstehen, wie sie Daten nutzen und schützen können.” Welche Tools werden verwendet? Die Unternehmen nutzen verschiedene Tools als Data Catalog Repository, darunter Alation, Collibra, D-Quantum von Synabi und Data 360. Einige setzen auch auf Eigenentwicklungen oder eine Kombination verschiedener Lösungen. Welche Abhängigkeiten bestehen zu anderen Disziplinen? Der Data Catalog ist eng mit anderen Disziplinen im Unternehmen verknüpft, insbesondere mit Master Data Management (MDM), Data Lake, Data Governance, Information Security und Enterprise Architecture Management (EAM). “Ein Data Catalog hat zahlreiche Abhängigkeiten von verschiedenen Disziplinen im Unternehmen. Dazu gehören MDM (Master Data Management), Data Lake, Data Governance, Data Privacy, API Management, Application Portfolio, Information Security, Enterprise Architecture Management (EAM) und weitere.” Welches Metamodell liegt dem Data Catalog zugrunde? Die Unternehmen verwenden unterschiedliche Metamodelle, die sowohl technische als auch geschäftliche Aspekte abdecken. Dazu gehören Kategorien wie Business Assets, Data Assets, Technical Assets, Governance Assets und Data Sharing. “Unser Data Catalog basiert auf einem umfassenden Metamodell, das verschiedene Kategorien und Inhalte umfasst. Diese Kategorien dienen dazu, die Struktur und Organisation der im Data Catalog erfassten Daten und Informationen klar zu definieren.” Welche Einführungsstrategien wurden verfolgt? Die Unternehmen haben sowohl Top-Down- als auch Bottom-Up-Ansätze verfolgt. Einige begannen mit Pilotprojekten oder MVPs, um den Wert des Data Catalogs zu demonstrieren, während andere eine unternehmensweite Einführung vorantrieben. Welche Betriebsmodelle gibt es? Es gibt verschiedene Betriebsmodelle für Data Catalogs, darunter zentralisierte und föderierte Ansätze. Die Wahl des Modells hängt von der Unternehmensgröße, der Datenlandschaft und den spezifischen Anforderungen ab. Welche Architekturmuster sind typisch? Die Unternehmen setzen verschiedene Architekturmuster ein, darunter Pull- und Push-Ansätze sowie den “Catalog of Catalogs”-Ansatz, bei dem Metadaten aus verschiedenen Data Catalogs zusammengeführt werden. Fazit: Mehr als ein technisches Werkzeug Ein Data Catalog ist mehr als nur ein technisches Werkzeug. Er ist ein strategisches Instrument, das Unternehmen dabei unterstützt, ihre Daten in wertvolle Erkenntnisse umzuwandeln. Durch die Schaffung von Transparenz, die Verbesserung der Datenqualität und die Förderung des Datenverständnisses können Unternehmen ihre Entscheidungsfindung verbessern, Innovationen vorantreiben und ihre Wettbewerbsfähigkeit stärken. Die Entwicklung von Data Catalogs schreitet rasant voran. Neue Technologien wie Künstliche Intelligenz und maschinelles Lernen werden zunehmend integriert, um die Funktionalität und Benutzerfreundlichkeit zu verbessern. Es bleibt spannend zu beobachten, wie sich Data Catalogs weiterentwickeln und welche Rolle sie in der Zukunft der Datenverwaltung spielen werden.

Der ganze Artikel ist im Newsticker der Computerwoche nachzulesen.

19.09.2024

RSS Newsfeed
Alle News vom TAGWORX.NET Neue Medien können Sie auch als RSS Newsfeed abonnieren, klicken Sie einfach auf das XML-Symbol und tragen Sie die Adresse in Ihren Newsreader ein!