Big Data Dataflow Plattformverwaltung: Wie wir einer führenden deutschen Bank dabei geholfen haben, ihre Daten sicher und stabil zu verwalten
Herausforderung
Die Bank nutzt einen Data Lake, um große Mengen an heterogenen Daten aus verschiedenen internen und externen Quellen zu speichern und zu verwalten. Der Data Lake ermöglicht es der Bank, Daten in ihrem Rohformat zu erfassen und flexibel auf sie zuzugreifen, um Analysen, Berichte und Business Intelligence zu unterstützen. Unter anderem werden basierend auf den Daten Geldwäsche-, sowie weitere Compliance-Analysen (Fraud Detection) betrieben und eine künstliche Intelligenz trainiert. Darüber hinaus dient der Data Lake als zentraler Datenspeicher für die Entwicklung und Implementierung von datenbasierten Anwendungen und datengetriebenen Entscheidungsprozessen in der Bank.
Beim Einstieg in dieses Projekt gab es verschiedene Probleme beim Beladen des Data Lakes (Big Data Dataflow Plattform) und dies hatte somit auch Auswirkungen auf die Datenbasis für wichtige darauf zugreifende Use-Cases und Analysen. Beispielsweise war die Daten-Qualität auf Grund von abgebrochenen Datentransfers nicht auf dem notwendigen Niveau oder die Sicherheit des Gesamtsystems noch nicht auf dem von der Bank erwarteten Level. Die Mitarbeiter unseres Kunden waren auf Grund von Aufgaben in anderen Bereichen und fehlender Erfahrung in den verwendeten Technologien nicht in der Lage, die bestehenden Probleme zeitnah zu lösen. An diesem Punkt wurden Berater der ORDIX AG mit der Lösung der Probleme beauftragt.
Vorgehen
Das gesamte Projekt wurde in einem agilen Team bearbeitet, sodass wir stets schnell auf die ankommen Anfragen und Gegebenheiten reagieren konnten. Wir haben in einem kundenspezifischen Modell, das stark an SCRUM angelehnt war, in Sprints von jeweils zwei Wochen gearbeitet.
- Analyse der vorhandenen Situation: Als Erstes haben wir uns einen Überblick über die vorhandene Big Data Dataflow Plattform verschafft und ihre Schwachstellen und Probleme identifiziert.
- Planung der Optimierungsmaßnahmen: Basierend auf den Ergebnissen der Analyse haben wir Optimierungsmaßnahmen geplant, um die Stabilität und Leistung der Plattform zu verbessern und die Sicherheit zu erhöhen.
- Implementierung der Optimierungsmaßnahmen: Wir haben die geplanten Optimierungsmaßnahmen implementiert, um die Plattform stabiler und sicherer zu machen. Dazu gehörte die Überwachung und das Monitoring der Plattform mittels telegraf und Grafana, das Identifizieren und Lösen von Bad-Practices in den Dataflows und die Automatisierung von Rollouts und Updates mittels Ansible.
- Kontinuierliche Verbesserung und Upgrades: Im letzten Schritt konnten wir die gewonnenen Erfahrungen und "Lessons learned" in die neue Umgebung einfließen lassen. Die erste Hortonworks DataFlow (HDF) Umgebung wird nun Schritt für Schritt durch die neue Cloudera Data Platform (CDP) abgelöst. Zusätzlich konnten wir die Ressourcen der Server und Cluster korrekt an die tatsächlichen Bedürfnisse anpassen und die Gesamtkosten drastisch senken.
- Neben der Projektumsetzung haben wir Schulungen durchgeführt, um das Verständnis und die Kenntnisse der internen Mitarbeiter im Umgang mit Apache NiFi zu verbessern. Dadurch konnten wir sicherstellen, dass die internen Mitarbeiter in der Lage sind, die Plattform eigenständig zu verwalten und zu warten.
Im Konkreten waren unsere Experten mit Herausforderungen auf mehreren Ebenen konfrontiert, welche iterativ angegangen und die Systeme im Sinne unseres Kunden verbessert wurden:
- Stabilität der Big Data Dataflow Plattform: Die Plattform des Kunden war instabil und litt regelmäßig unter Ausfällen, die zu Betriebsbeeinträchtigungen führten. Daten wurden entweder gar nicht oder verspätet in die Plattform übertragen, was zu Verzögerungen und Inkonsistenzen führte. Unsere Herausforderung bestand darin, die Ursachen für diese Ausfälle zu identifizieren und Lösungen zu finden, um die Plattform stabil und zuverlässig zu machen.
- Schema Evolution: Der Kunde hatte häufige Schema-Änderungen, die in der Dataflow Plattform verarbeitet werden müssen. Es war und ist von entscheidender Bedeutung, dass diese Änderungen registriert und verarbeitet werden, ohne Dateninkonsistenzen zu verursachen. Wir mussten sicherstellen, dass der Data Lake flexibel bleibt und sich an die sich ändernden Geschäftsanforderungen anpassen kann, ohne dabei die Integrität und Konsistenz der Daten zu beeinträchtigen.
- Mangelnde Überwachung der Plattform: Bisher gab es keine ausreichende Überwachung der Plattform, was zu unvorhergesehenen Ausfällen führte. Es fehlte an einem effektiven Monitoring- und Alerting-System, um Probleme frühzeitig zu erkennen und Maßnahmen zu ergreifen. Unsere Aufgabe bestand darin, eine umfassende Überwachungslösung zu implementieren, um Ausfälle zu minimieren und die Betriebszeit der Plattform zu maximieren.
- Bad Practices in den Dataflows: Es wurden ineffiziente Arbeitsweisen und Praktiken in den Dataflows des Kunden identifiziert, die zu Instabilitäten in der Plattform führen. Unsere Herausforderung bestand darin, diese Bad Practices zu erkennen, zu beheben und Best Practices einzuführen, um die Stabilität und Leistung der Plattform zu verbessern.
- Entlastung des Operations-Teams: Das Operations-Team des Kunden war überlastet und benötigte Unterstützung bei der Verwaltung und Wartung der Plattform. Wir mussten Lösungen entwickeln, um die Arbeitsbelastung des Teams zu reduzieren und sicherzustellen, dass die Plattform effizient betrieben und gewartet werden kann.
- Begrenzte Kenntnisse der internen Mitarbeiter: Die internen Mitarbeiter des Kunden hatten begrenzte Erfahrung im Umgang mit Apache NiFi, der Plattform, die für die Dataflows verwendet wird. Unsere Herausforderung bestand darin, Schulungen und Unterstützung anzubieten, um das Wissen und die Fähigkeiten der Mitarbeiter zu erweitern und sicherzustellen, dass sie die Plattform effektiv nutzen können.
- Mangelhaftes Berechtigungs- und Rollenkonzept: Der Kunde hatte Schwierigkeiten bei der Anwendung und Verwaltung von Berechtigungen auf der Plattform. Es fehlte ein einheitliches und effektives Berechtigungs- und Rollenkonzept, das die Plattformnutzung und -verwaltung erleichtert. Unsere Aufgabe bestand darin, ein robustes Berechtigungsmodell einzuführen und sicherzustellen, dass die Zugriffsrechte und Rollen klar definiert und verwaltet werden können.
- Fehlendes einheitliches On- und Offboarding von Use-Cases: Der Kunde hatte keine automatisierte Methode für das On- und Offboarding von Use-Cases auf der Plattform. Es fehlte ein standardisierter Prozess, um neue Use-Cases einzuführen oder bestehende zu entfernen. Unsere Herausforderung bestand darin, einen einheitlichen und automatisierten Onboarding- und Offboarding-Prozess zu implementieren, um die Effizienz und Skalierbarkeit der Plattformnutzung zu verbessern.
Kundennutzen/ Mehrwert
Im Rahmen des Projekts haben wir als ORDIX AG folgende Mehrwerte generiert:
- Die Stabilisierung des Gesamtsystems gewährleistet einen reibungslosen und kontinuierlichen Betrieb der IT-Infrastruktur.
- Durch die Umsetzung gezielter Maßnahmen konnte eine höhere (Daten)-Verfügbarkeit erreicht werden, wodurch unser Kunde nun uneingeschränkten Zugriff auf seine Informationen hat und Geschäftsprozesse effizienter abwickeln kann.
- Die Erhöhung der Datensicherheit trägt dazu bei, dass die Vertraulichkeit und Integrität sensibler Daten gewahrt werden.
- Die Härtung der Umgebung hat die Widerstandsfähigkeit unserer Kundeninfrastruktur gegenüber potenziellen Bedrohungen und Angriffen gestärkt, wodurch das Risiko von Sicherheitsvorfällen minimiert wurde.
- Die Verbesserung der Datenbasis für Analysen zu Compliance und Geldwäsche (fraud detection) ermöglicht unserem Kunden eine genauere Überwachung und Prüfung von Transaktionen, um potenzielle Risiken besser zu identifizieren und zu minimieren.
- Der erfolgte Know-how-Transfer an die Mitarbeiter unseres Kunden stellt sicher, dass sie nun über das erforderliche Fachwissen verfügen, um die implementierten Lösungen effektiv zu verwalten und zu nutzen. Unser Kunde hat mittlerweile den Betrieb der Plattform mit eigenem Personal übernommen.
- Die Automatisierung von Prozessen hat dazu geführt, dass manuelle Arbeitsschritte reduziert wurden, was die Effizienz steigert und die Möglichkeit für unsere Kunden schafft, sich auf strategische Aufgaben zu konzentrieren.
- Die proaktive Betriebs- und Serviceoptimierung hat dazu beigetragen, dass eine kontinuierliche Verbesserung des IT-Services realisiert werden kann, um eine optimale Leistung und Verfügbarkeit sicherzustellen und den Anforderungen seines Geschäftsumfelds gerecht zu werden.
Kunde
Unser Kunde ist eine führende Großbank mit Hauptsitz in Deutschland. Die geschäftlichen Schwerpunkte liegen dabei im Bereich von Privat- und Firmenkunden, für die ein umfassendes Portfolio an Finanzdienstleistungen angeboten wird.
Branche: Banken
Methoden & Technologien
Monitoring:- Telegraf
- Prometheus
- Grafana
Big Data - Technologien:
- Apache NiFi
- Hortonworks Dataflow Platform (HDF)
- Hortonworks Data Platform (HDP)
- Cloudera Data Platform (CDP)
- Cloudera Flow Management (CFM)
- Apache Solr
- Apache ZooKeeper
- Apache LogSearch
- Apache Kafka
- Apache Ambari
- Cloudera Manager
- Apache Hive
- Apache HBase
- Apache HDFS
Betrieb & Operations:
- Python
- Ansible
- BitBucket
- SonarQube