Aufbau, Betrieb, Weiterentwicklung und Migration eines Hadoop-basierten Data Lakes

Herausforderung

Das Hauptziel dieses Projektes besteht darin, einen umfassenden Data Lake für das gesamte Unternehmen einzuführen, der die Möglichkeit bietet, Daten aus unterschiedlichen Quellen zu integrieren, zu speichern, zu verwalten und zu analysieren. Dieser Data Lake wird internen Kunden und Abteilungen die Gelegenheit geben, strukturierte Daten aus relationalen Datenbanken abzurufen und zu verarbeiten. Darüber hinaus ermöglicht die Integration von Hadoop die Handhabung von unstrukturierten Daten und großen Datenvolumina.

Das erste Projekt der Bank sah sich zu Beginn mit zwei erheblichen Herausforderungen konfrontiert: Zum einen die Heterogenität der Datenquellen, die von traditionellen Datenbanken über CSV-Dateien bis hin zu Bilddateien reichten, und zum anderen das Fehlen geeigneter Mechanismen zur Bewältigung großer, unstrukturierter Datensätze.

Herausforderung 1: Vielfalt der Datenquellen
Die Datenlandschaft war äußerst vielfältig und umfasste unterschiedlichste Formate und Strukturen. Die Integration dieser disparaten Datenquellen war eine anspruchsvolle Aufgabe, da herkömmliche Ansätze an ihre Grenzen stießen.

Herausforderung 2: Verarbeitung großer, unstrukturierter Datensätze
Die schiere Menge an unstrukturierten Daten, die in verschiedensten Formen vorlagen, erforderte einen Ansatz, der herkömmliche Datenverarbeitungskapazitäten überstieg. Die bisherigen Infrastrukturen waren nicht ausreichend, um diese Datensätze in akzeptabler Zeit und Qualität zu verarbeiten.


Vorgehen

Projektentwicklung: Erster Hadoop-basierter Data Lake
Um diese Herausforderungen zu bewältigen, wurde der erste Hadoop-basierte Data Lake entwickelt. Diese innovative Lösung ermöglichte es, die Vielzahl der Datenformate zu vereinen und die Verarbeitung unstrukturierter Daten effektiv zu bewältigen. Dies ebnete den Weg für eine effiziente Datenintegration und -speicherung.

Entwicklung des Projekts: Von Datenverarbeitung zur analytischen Nutzung
Im Verlauf des Projekts erfolgte eine fortschreitende Integration von Datenquellen in den Data Lake. Mit der Weiterentwicklung und Migration auf eine modernere Plattform wurde der Fokus schrittweise von der reinen Datenverarbeitung hin zur analytischen Nutzung verschoben.

Analytische Nutzung inklusive Machine Learning-Modelle: Neue Horizonte
Der Data Lake entwickelte sich von einer reinen Datenverarbeitungsplattform zu einer wertvollen Ressource für analytische Zwecke. Die Integration von Machine Learning-Modellen ermöglichte fortgeschrittene Analysen und Prognosen auf Basis der gespeicherten Daten. Dies eröffnete neue Horizonte für datengetriebene Entscheidungsfindung.

Der Aufbau und Betrieb des ersten Clusters erfolgte ursprünglich nach konventionellen Methoden. Ein Betriebsteam bestehend aus 4-6 Mitgliedern verteilte und bearbeitete Aufgaben und Probleme je nach Bedarf und Priorität.

Infolge einer umfassenden Projektstrukturreform erfolgte die Umstellung auf eine agile Vorgehensweise. Dies ermöglichte es uns, rasch auf eintreffende Anfragen und sich ändernde Gegebenheiten zu reagieren. Wir nutzten ein kundenspezifisches Modell, das stark an SCRUM angelehnt war. Die Arbeit erfolgte in Sprints von jeweils zwei Wochen, wodurch eine hohe Anpassungsfähigkeit gewährleistet wurde.

Kundennutzen/ Mehrwert

Das erfolgreiche Abschließen des Projekts führte zur Schaffung eines Data Lakes, der den Data Scientists innerhalb der Bank eine hochleistungsfähige Umgebung bietet. In dieser Umgebung stehen Daten aus vielfältigen Quellen zur Verfügung und können erstmals in einem integrierten Rahmen verarbeitet werden. Diese Entwicklung ermöglichte die Entwicklung, das Training und die Ausführung neuer Machine-Learning-Modelle.

Neben den analytischen Use Cases wurden auch regulatorische Berichte erfolgreich im Data Lake umgesetzt. Die Aggregation der benötigten Daten in dieser zentralen Plattform erleichterte die Erstellung dieser Berichte in bisher unerreichter Effizienz.

Die Implementierung von Lösungen auf Basis des Data Lakes führt im Laufe der Jahre zu einer erheblichen Optimierung einer Vielzahl von Aufgaben und Prozessen innerhalb der Bank. Dies trug nachhaltig zum Unternehmenserfolg bei und spiegelte sich in gesteigerter Effizienz und besser informierten Entscheidungsprozessen wider.

Kunde

Unser Kunde ist eine führende Großbank mit Hauptsitz in Deutschland. Die geschäftlichen Schwerpunkte liegen dabei im Bereich von Privat- und Firmenkunden, für die ein umfassendes Portfolio an Finanzdienstleistungen angeboten wird.

Branche: Banken

Methoden & Technologien

Monitoring:
  • Telegraf
  • Prometheus
  • Grafana

Big Data - Technologien:
  • IBM Open Platform with Apache Hadoop (IOP)
  • MariaDB Galera Cluster
  • Hortonworks Data Platform (HDP)
  • Apache Solr
  • Apache ZooKeeper
  • Apache Kafka
  • Apache Ambari
  • Apache Hive
  • Apache HBase
  • HDFS
  • Apache Ranger
  • Apache Knox
  • Hortonworks DataPlane Service (DPS)
  • Data Lifecycle Manager (DLM)
  • Cloudera Data Platform (CDP) Private Cloud Base
  • Cloudera Manager
  • Cloudera Data Science Workbench (CDSW)
  • Cloudera Data Visualization (CDV) - Inklusive dem Vorgängerprodukt Arcadia Data
  • Hortonworks Dataflow Platform (HDF)
  • Apache NiFi

Betrieb & Operations:
  • Ansible
  • BitBucket
  • JIRA
  • Confluence

Unsere Ansprechpartner:innen
SPRECHEN SIE UNS AN!

Sie haben Fragen zu unseren Dienstleistungen & Inhouse-Seminaren oder benötigen ein individuelles Angebot? Dann sprechen Sie uns an!