KI-basierte Dokumentensuche für präzisere Entscheidungen

Herausforderung

Im Research-Bereich des Kunden entstehen täglich zahlreiche Dokumente wie Aktienbewertungen, Marktübersichten und Trendanalysen. Diese Inhalte werden über ein Suchportal für Kunden und Partner bereitgestellt. Die Qualität der Suche beeinflusst maßgeblich das Nutzererlebnis und die Effizienz bei der Informationsbeschaffung. Klassische Suchmechanismen stoßen jedoch zunehmend an ihre Grenzen, da sie komplexe Fragestellungen und semantische Zusammenhänge nur eingeschränkt abbilden können.

Das Ziel des Projekts war die Entwicklung einer KI-gestützten Suchfunktion, die relevante Inhalte schneller und präziser identifiziert. Damit sollte der Zugang zu entscheidungsrelevanten Informationen erleichtert und die Nutzerfreundlichkeit verbessert werden. Zusätzlich war gefordert, die neue Lösung nahtlos in die bestehende Systemlandschaft zu integrieren und die bisherige Suche vollständig abzulösen.

Vorgehen

Zu Beginn analysierten wir die bereitgestellten Dokumente, um deren Struktur und Inhalte zu verstehen. Darauf aufbauend wählten wir einen geeigneten Textextraktor und entwickelten ein Postprocessing, das die extrahierten Inhalte strukturell optimierte. Anschließend segmentierten wir die Texte in handhabbare Abschnitte (Chunking), um eine effiziente Verarbeitung sicherzustellen.

Um semantische Informationen nutzbar zu machen, setzten wir ein Embedding-Modell ein, das die Texte in Vektor-Repräsentationen überführt. Parallel richteten wir einen OpenSearch-Cluster ein, in dem sowohl die Dokumententexte als auch die erzeugten Vektoreinbettungen gespeichert wurden. Alle Schritte bündelten wir in einer Ingest-Pipeline, die den gesamten Prozess von der Extraktion bis zur Indexierung automatisiert.

Darauf aufbauend entwickelten wir eine hybride Suche, die schlagwortbasierte und semantische Ansätze kombiniert. Ergänzend erstellten wir ein Datenhaltungskonzept, das die effiziente Speicherung zeitbasierter Dokumente in unterschiedlichen Indizes ermöglicht. Für die Produktionsreife erweiterten wir die Lösung um Löschendpunkte für Dokumente und Indizes sowie eine UI für Entwicklertests. Die Ergebnisse wurden regelmäßig vor Stakeholdern präsentiert und die nächsten Schritte eng mit dem Fachbereich abgestimmt.

Kundennutzen / Mehrwert

Die neue Suche kombiniert klassische Schlagwortsuche mit semantischen Ansätzen und verbessert dadurch die Ergebnisqualität deutlich. Nutzer können nun auch komplexe Fragestellungen wie Vergleiche formulieren und erhalten Ergebnisse, die beide Seiten berücksichtigen. Dank des Sprachverständnisses von modernen Sprachmodellen erkennt die Lösung Nuancen in Suchanfragen und kann somit die Präzision der Antworten erhöhen.

Da relevante Dokumente schneller gefunden werden, reduziert die neue Lösung den Aufwand für die Informationsbeschaffung und verbessert damit das Kundenerlebnis. Zudem unterstützt die Lösung die KI-Strategie des Kunden, indem sie den praktischen Nutzen moderner Technologien im Kerngeschäft demonstriert. Diese Erkenntnisse schaffen die Basis für künftige Erweiterungen wie die Integration generativer KI für Zusammenfassungen oder direkte Antworten auf Fragen.

Kunde

Unser Kunde ist eine führende genossenschaftliche Geschäftsbank in Deutschland mit starker Präsenz in Europa. Die Bank fokussiert sich auf Firmenkundengeschäft, Kapitalmarktaktivitäten und Asset Management und verbindet regionale Institute mit internationalen Finanzmärkten.

Branche: Banken

Methoden & Technologien

  • Python, pip, Development Containers, Docker, Podman, JupyterHub
  • Embedding Models (Qwen3), Semantic Search, BM25, Hybrid Search
  • OpenSearch, OpenSearch Dashboards
  • FastAPI, Streamlit, pytest, Dynaconf, PyMuPDF
  • LangChain, SentenceTransformers, Huggingface
  • Git, GitLab, GitLab CI/CD, Sonatype Nexus
  • Visual Studio Code, bash