Open-Source-Datenqualitätsmanagement-Plattform / Sudo Null IT-News

Der Wert von Daten für ein effektives Organisationsmanagement wird berechnet, seit Frederick Winslow Taylor vor mehr als hundert Jahren die Grundlagen der wissenschaftlichen Arbeitsorganisation legte. Das Aufkommen von Computern ermöglichte es, ihre Verarbeitung und Nutzung auf eine grundlegend neue Ebene zu heben. Die von der Menschheit genutzte Datenmenge wächst exponentiell. Nach Prognosen der Fachwelt wird ihr Volumen in drei Jahren (im Jahr 2025) 180–200 Zettabyte erreichen.

Die manuelle Verarbeitung großer Informationsmengen ist praktisch unmöglich und wir müssen uns immer mehr auf komplexe Algorithmen zur Verarbeitung, Aufbereitung und Analyse verlassen. Die Datenaggregation wird immer hochrangiger, Dutzende und Hunderte Millionen Datensätze in Datenbanken werden maschinell auf eine einseitige Platte reduziert, auf deren Grundlage strategische Entscheidungen getroffen werden.

Aber Fehler in den Ausgangsdaten verursachen Fehler bei der Berechnung von Derivaten, im besten Fall können die Algorithmen sie nicht verarbeiten und der Prozess stoppt abnormal, und im schlimmsten Fall erhält der Manager das Ergebnis der Analyse, ohne zu bemerken, dass die Fehler dazu geführt haben ein absolut unzureichendes Ergebnis. Bildlich gesprochen beginnt er an einem Fußball zu nagen, in der Gewissheit, dass es sich um eine Wassermelone handelt.

Hier kommen wir zu einer ziemlich vorhersehbaren, aber für viele immer noch nicht offensichtlichen Schlussfolgerung: Das Management einer modernen Organisation ist ohne die Schaffung eines Datenmanagementsystems und insbesondere eines Datenqualitätsmanagementsystems nicht möglich.

Am Anfang herrlicher Taten

Das Anfang 2020 bei der Gazprombank eingerichtete CDO-Büro (Chief Data Officer) stand vor einer Reihe von Herausforderungen, von denen die wichtigste die Frage der Verbesserung der Datenqualität war.

Die Forschungsarbeiten haben begonnen. Der Umgang mit modernen Datenmengen war ohne eine leistungsstarke und funktionierende IT-Plattform nicht möglich. Dies schien kein Problem zu sein: Der Markt bot eine Auswahl an verschiedenen Lösungen namhafter und weniger bekannter Anbieter, das Netzwerk war voll von Informationen, und auf zahlreichen Konferenzen wetteiferten Kollegen um erfolgreiche Implementierungen eines bestimmten Produkts.

Aber es gibt immer ein ABER: Hohe Lizenzkosten, teurer Support, Abhängigkeit von der Expertise des Anbieters, mangelnde Flexibilität und Anpassungsfähigkeit – dies ist keine vollständige Liste dessen, was Sie für die Wahl eines Out-of-the-Box-Systems bezahlen müssen Lösung.

Dann haben wir uns entschieden, uns auf die Volksweisheit zu verlassen, die Napoleon Bonaparte und dann Ferdinand Porsche regelmäßig zugeschrieben wird: „Wenn du etwas gut machen willst, mach es selbst.“ So entstand die Idee, eine eigene Datenqualitätsmanagement-Plattform auf Basis des Open-Source-Stacks zu erstellen. Hier sind die Anforderungen, die die Plattform erfüllen musste:

  • Möglichkeit, benutzerdefinierte benutzerdefinierte Datenqualitätsprüfungen beliebiger Komplexität zu erstellen;

  • Grafische Visualisierung der Arbeit von Datenqualitätsprüfungen;

  • Web-Benutzeroberfläche zum Erstellen und Konfigurieren von Prüfungen;

  • Die Fähigkeit, sich mit jeder Datenquelle zu verbinden, unabhängig von den darin verwendeten Technologien;

  • Versenden von E-Mail-Benachrichtigungen über die Ergebnisse von Inspektionen;

  • Integration mit Jira, um Datenqualitätsfälle zu erstellen, wenn bestimmte Regeln ausgelöst werden;

  • Transparentes Rollenmodell für den Zugriff auf das System;

  • Portierbarkeit der Lösung auf eine andere Datenverarbeitungsplattform, falls erforderlich.

Qualität ist, wenn man alles richtig macht, auch wenn niemand zuschaut

Wir mussten das Vertrauen der Verbraucher aufbauen und ihm die Möglichkeit geben, seine Geschäftsprozesse auf der Grundlage hochwertiger und verifizierter Daten aufzubauen. Wie lässt sich diese Aufgabe in vertretbarer Zeit bewerkstelligen, ohne ein riesiges Budget und eine Umstrukturierung der gesamten IT-Landschaft?

Wir begannen mit dem Aufbau der Datenqualitätskontrolle auf der Ebene einer einzelnen konsolidierten Schicht und auf der Ebene der Anwendungs-Storefronts. Das Schlüsselelement – Kontrollen – wir haben die letzte Stufe des Prozesses der Transformation und Datenvorbereitung gemacht.

Überprüfung der Datenqualität

Wir haben zwischen einfachen und komplexen Datenqualitätsprüfungen unterschieden. Einfache Prüfungen sind Prüfungen, die in großen Mengen und automatisch (oder automatisiert) mit minimalem Aufwand erstellt werden können. Hier sind Beispiele für einfache Überprüfungen:

  • Referentielle Integritätsprüfung;

  • Überprüfung der Befüllung von Attributen;

  • Prüfen auf gültige Attributwerte.

Tausende einfacher Prüfungen sind erforderlich, um die kritischen Attribute der konsolidierten Daten vollständig abzudecken. Aus diesem Grund sind die Geschwindigkeit und Einfachheit ihrer Erstellung von entscheidender Bedeutung. Bei uns können sie über die Weboberfläche im Konstruktor erstellt werden. Bevor die Prüfung auf die Verordnung eingestellt wird, wird eine automatische vorläufige Validierung durchgeführt – die SQL-Syntax wird geprüft, das Vorhandensein von Objekten, auf denen die Abfrage durchgeführt wird, und die Verfügbarkeit von Zugriffsrechten auf dieses Objekt.

Einfacher ValidierungskonstruktorEinfacher ValidierungskonstruktorReferential Integrity ConstructorReferential Integrity Constructor

Wir nennen komplexe Prüfungen, die (aufgrund der Komplexität der Algorithmen) nicht aus Metadaten in ausführbaren Code generiert oder mit dem Query Builder erstellt werden können. Ein Beispiel ist ein Bilanzkonvergenzbericht. Der Algorithmus dieser Prüfung enthält Tausende von Begriffscodes. Eine komplexe Prüfung wird als separater ETL-Prozess erstellt, der als Teil eines geplanten Taskflows ausgeführt wird.

Alle Checks verfügen über eine Reihe von Einstellungen, mit denen Sie ihren Lebenszyklus verwalten können. Zum Beispiel:

  • Überprüfungsstatus (Entwurf/Operation/Archiv);

  • Der Eigentümer des Audits und der Steward, der für die Überwachung des Datums des Audits verantwortlich ist;

  • Konfidenzintervalllänge — die Anzahl der Tage, während der das Abweichungskonfidenzintervall berechnet wird;

  • Schwellenwert für das Senden von E-Mail-Benachrichtigungen – eine Metrik, deren Überschreitung zur Verteilung von E-Mail-Benachrichtigungen führt;

  • Mailingliste;

  • Bedingung für die automatische Erstellung eines Falls in Jira.

Mittlerweile sind mehr als 25 Arten von Parametern für den Lebenszyklus komplexer Prüfungen im System implementiert.

Review Builder – Legen Sie Verteilungsoptionen und Jira-Integration festReview Builder – Legen Sie Verteilungsoptionen und Jira-Integration fest

Alle Datenqualitätsprüfungen im System werden nach individuellen Einstellungen automatisch durchgeführt und berechnet.

Ein wichtiges Instrument für den Aufbau von Datenqualitätsmanagementprozessen ist die rechtzeitige Benachrichtigung der verantwortlichen Mitarbeiter über erkannte Probleme. Zu diesem Zweck haben wir zwei Arten von automatischen E-Mail-Benachrichtigungen erstellt: Benachrichtigungen über den Status von Datenqualitätsprüfungen und detaillierte Berichte über die Ergebnisse bestimmter Prüfungen.

Die erste Meldung, dass die Prüfung (oder eine Gruppe von Prüfungen) erfolgreich abgeschlossen wurde oder während der Berechnung ein Notfall aufgetreten ist und ein Administratoreingriff erforderlich ist. Im Erfolgsfall enthält die Benachrichtigung die aggregierten Ergebnisse der Überprüfungen und im Fehlerfall die Angabe des Grundes.

Newsletter zur Durchführung von Showcase-Checks zur KundensegmentierungNewsletter zur Durchführung von Showcase-Checks zur Kundensegmentierung

Der detaillierte Bericht enthält eine Liste von Datensätzen, in denen ein Verstoß festgestellt wurde (z. B. Werte außerhalb des Konfidenzintervalls, Überschreitung der zulässigen Metrikwerte, fehlende referentielle Integrität usw.).

Zusammenfassender Versand der Ergebnisse der QualitätsprüfungZusammenfassender Versand der Ergebnisse der QualitätsprüfungVisualisierung

Aufgrund des anfänglichen Fokus auf Open Source haben wir uns für die Implementierung von Dashboards für Grafana entschieden, das bereits in der Bank verwendet wird. Wir haben Dashboards für Datenverwalter und Datenkonsumenten bequem gemacht: integrierte Heatmaps und Ampeln, Grafiken, die die Dynamik von Änderungen in Datenqualitätsmetriken mit Konfidenzintervallen zeigen, Filter zur Auswahl einzelner Zweige, automatisierte Systeme, Tabellen und Attribute. Mit ihrer Hilfe bieten Sie die Möglichkeit einer tiefgehenden Analyse bis hin zu konkreten Fehlern in den Daten.

Zusammenfassendes Dashboard der Scorecard-QualitätsmetrikenZusammenfassendes Dashboard der Scorecard-Qualitätsmetriken

In ein paar Monaten Arbeit haben wir festgestellt, dass Grafana vollkommen zu uns passt und wir nicht nach anderen Tools suchen müssen.

Die Architektur

Das erste, worüber beim Design entschieden werden musste, war die zugrunde liegende einheitliche Datenplattform. Es wurde auf Basis von Hadoop implementiert. Außerdem wurden routinemäßige Berechnungen und Datenqualitätsmanagementprozesse mit einem einzigen Satz industrieller ETL-Tools implementiert.

Jedes Element des Kontrollprozesses ist Teil des gesamten regulatorischen Prozesses zur Erhebung und Aufbereitung von Daten. Alle Berechnungsergebnisse der Datenqualitätsprüfung werden materialisiert und in einer gemeinsamen detaillierten Prüfschicht gespeichert und auch zur Visualisierung in Grafana an das Postgres-DBMS übertragen.

Was weiter

Unser Team konnte schnell ein autarkes Produkt auf Basis von Open Source entwickeln und implementieren, mit dem wir die zentralen Aufgaben des Datenqualitätsmanagements lösen konnten. Das Vorhandensein eines benutzerdefinierten Check-Designers, Visualisierungssystemen, Benachrichtigungen sowie der Integration mit externen Systemen ermöglicht es Ihnen, schnell Prozesse zur Überwachung von Schlüsselindikatoren zu erstellen und sie in Geschäftsprozesse zu integrieren.

Jetzt haben wir eine ständige Überwachung der Datenqualität, wir haben Prozesse zum Management ihrer Qualität implementiert, wir identifizieren und beseitigen täglich Qualitätsvorfälle. Aber wir werden hier nicht aufhören. Das nächste Ziel besteht darin, Verwaltungsprozesse so weit wie möglich zu automatisieren, die Datenabdeckung durch Qualitätsprüfungen zu erweitern und die Reaktionszeit auf Vorfälle zu verkürzen.

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *