
Fraud Detection mit KI in der GCP: Datengetriebene Betrugsprävention durch Machine Learning
Herausforderung
Im digitalen Zeitalter stehen Banken täglich vor der Herausforderung, ihre Kunden wirksam vor Betrugsversuchen zu schützen. Während die Erwartungen an schnelle, reibungslose und digitale Prozesse steigen, stoßen klassische manuelle oder regelbasierte Prüfmechanismen zunehmend an ihre Grenzen.
Das zentrale Ziel bestand darin, Betrug (Fraud) nicht nur zu erkennen, sondern ihn möglichst in Echtzeit zu verhindern, bevor ein finanzieller oder reputativer Schaden entsteht. Um diesem Anspruch gerecht zu werden, setzte der Kunde auf den Einsatz moderner Technologien wie Künstliche Intelligenz und maschinelles Lernen. Ziel war es, bestehende Bankprozesse durch intelligente, automatisierte Analysen zu ergänzen und so die Sicherheit für Kunden und Bank nachhaltig zu erhöhen.
Vorgehen
Zu Beginn des Projekts analysierten wir die bestehenden Prozesse im Zahlungsverkehr, in der Benutzerauthentifizierung sowie in der bisherigen Fraud Detection, um Schwachstellen und Optimierungspotenziale zu identifizieren. Diese Analyse erfolgte in enger Abstimmung mit angrenzenden Fachbereichen und themenverwandten Teams. Für tiefgehende, datengetriebene Analysen und Visualisierungen nutzten wir BigQuery als Data Warehouse und Jupyter Notebooks als explorative Arbeitsumgebung. Auf Basis der Analyse technischer Geräte-, Prozess- und Kundendaten identifizierten wir relevante Merkmale für die spätere Modellierung. Die gewonnenen Erkenntnisse präsentierten wir regelmäßig vor Stakeholdern und vermittelten sie in internen Workshops zur Förderung des Wissensaustauschs.
Im nächsten Schritt bereinigten, transformierten und konsolidierten wir die Daten zu spezialisierten, qualitativ hochwertigen Datensätzen, die als Grundlage für das Training und die Evaluation von Machine-Learning-Modellen dienten. Gemeinsam mit dem Fachbereich entschieden wir uns für eine Optimierung der Modelle auf eine hohe Präzision der berechneten Risk Scores. Die Priorität lag darauf, dass ein vom Modell erkannter Betrugsversuch mit hoher Wahrscheinlichkeit tatsächlich ein Betrugsversuch war. Die umgesetzte Lösung ermöglichte es den angebundenen Systemen, eigene Schwellenwerte zu definieren und flexibel auf die Ergebnisse zu reagieren. Das Modelltraining erfolgte in einem selbst gehosteten JupyterHub, um den Schutz sensibler Daten innerhalb der bestehenden Infrastruktur sicherzustellen. Die Modelle mit der höchsten Vorhersagegüte exportierten wir in einen Google Storage Bucket zur weiteren Nutzung in automatisierten Pipelines.
Parallel dazu entwickelten wir die notwendige Infrastruktur für den produktiven Einsatz der Modelle. Zur strukturierten Datenspeicherung konzipierten wir relationale Datenbankmodelle in Cloud Spanner, die wir über Liquibase automatisiert ausrollten. Die Befüllung der Datenbanken erfolgte über skalierbare Streaming-Dataflows, die wir mit Apache Beam entwickelten und in Google Cloud Dataflow ausführten. Die Ergebnisse unserer Modelle stellten wir anderen Systemen über REST-basierte Microservices bereit, die wir mit Quarkus umsetzten. Die zugehörigen Schnittstellen konzipierten wir in enger Zusammenarbeit mit angrenzenden Teams, um eine nahtlose Integration in die bestehende Systemlandschaft zu ermöglichen. Dadurch war es nicht erforderlich, dass jeder aufrufende Service direkt mit Vertex AI kommuniziert. Das Deployment der trainierten Modelle auf einem Vertex-AI-Endpunkt realisierten wir über eine Kubeflow-Pipeline. Sämtliche Ressourcen wurden abschließend über Terraform als Infrastructure as Code (IaC) bereitgestellt.
Kundennutzen / Mehrwert
Durch die Kombination aus datengetriebener Analyse, moderner Infrastruktur und dem gezielten Einsatz von Machine Learning konnten wir einen wesentlichen Beitrag zur Verbesserung der Fraud Detection leisten. Wir konnten aufzeigen, dass die eingesetzten Machine-Learning-Modelle dazu fähig waren, Betrug frühzeitig zu erkennen, wodurch eine nachweisbare Entlastung der Fachteams in der manuellen Betrugsprüfung erreicht wurde. Die Umsetzung mithilfe aktueller Cloud- und KI-Technologien ermöglichte eine nahtlose Integration in die bestehende Infrastruktur. Dadurch konnten auch Entwicklerinnen und Entwickler aus angrenzenden Bereichen unmittelbar an der Weiterentwicklung mitwirken, da sie mit den eingesetzten Technologien bereits vertraut waren. Dies erhöhte nicht nur die Akzeptanz der Lösung, sondern unterstützte auch deren produktive Einführung.
Darüber hinaus lieferten die im Projekt gewonnenen Erkenntnisse auch über das eigentliche Ziel hinaus einen spürbaren Mehrwert. So konnten wir beispielsweise Unstimmigkeiten in den Daten aufdecken, die auf Fehler in verschiedenen Bereichen des Gesamtsystems hinwiesen. Diese Erkenntnisse führten zu gezielten Verbesserungen in der Datenqualität und Systemstabilität. Zudem ermöglichten unsere tiefgehenden Analysen dem zuständigen Fachteam, neue Auswertungen durchzuführen, die unmittelbar zur Verbesserung der manuellen Fraud Detection beitrugen.
Kunde
Unser Kunde ist eine in Deutschland führende Bank mit globalem Netzwerk. Die Bank konzentriert sich auf ihre Stärken als Unternehmensbank, in einer führenden Privatkundenbank, in einer fokussierten Investmentbank sowie im Asset Management.
Branche: Banken
Methoden & Technologien
- Python, pip, Development Containers, Docker, JupyterHub
- TensorFlow, Keras, scikit-learn
- Google Cloud, BigQuery, Cloud Spanner, VertexAI, Cloud Storage
- Java, Google Cloud Dataflow, Apache Beam, Quarkus
- Terraform, Liquibase
- SQL
- Git, GitHub, GitHub Actions, Artifactory
- Visual Studio Code, IntelliJ, bash
- Atlassian Jira, Atlassian Confluence, Microsoft Teams