Die meisten RAG-Projekte scheitern nicht an der KI, sondern an der Datenbasis

RAG-Systeme versprechen Fachverlagen schnellen Zugang zu ihrem Wissen – doch viele Projekte scheitern früh. Nicht die KI ist das Problem, sondern schlechte Daten, falsches Chunking und naive PDF-Strategien. Wer RAG erfolgreich einsetzen will, braucht eine saubere, strukturierte und nachhaltige Datenbasis, erläutern Manuel Montero Pineda, Geschäftsführer data2type GmbH, und Mehrschad Zaeri Esfahani, Geschäftsführer parsQube GmbH, im folgenden Interview.

Warum haben „RAG-Systeme“ gerade so eine große Konjunktur bei Fachverlagen?

Manuel Montero Pineda

Manuel Montero Pineda

Fachverlage sitzen auf großen Mengen hochwertiger Inhalte, die bislang nur schwer zugänglich sind. RAG-Systeme versprechen, genau diese Inhalte über natürliche Sprache direkt nutzbar zu machen. Das ist ein enormer Mehrwert für Kunden, weil Wissen nicht mehr gelesen, sondern abgefragt werden kann. Gleichzeitig sind die Erwartungen an KI-gestützte Systeme stark gestiegen. Verlage stehen unter Druck, ihre Inhalte in moderne, interaktive Formate zu überführen. RAG wirkt hier wie eine vergleichsweise schnelle Lösung, weil bestehende Inhalte weiterverwendet werden können, ohne sie komplett neu aufzubereiten.

Nach meiner Beobachtung suchen Verlage die schnelle RAG-Lösung. Ihr sehr hier allerdings Fallstricke. Welche sind das?
Der größte Fallstrick ist die Annahme, dass man „einfach PDFs in ein System werfen“ kann und gute Ergebnisse bekommt. Genau das funktioniert in der Praxis nicht zuverlässig. Unstrukturierte Formate wie PDFs verlieren wichtige Informationen wie semantische Zusammenhänge, Fußnoten oder Referenzen. Das führt zu schlechteren Antworten und teilweise falschen Ergebnissen. Strukturierte Formate liefern dagegen deutlich präzisere Resultate, weil Kontext und Beziehungen erhalten bleiben. Ein weiterer kritischer Punkt ist die Qualität der Datengrundlage für das Retrieval. Diese muss zwingend geprüft werden. In der Praxis sieht man häufig fehlerhafte Inhalte, etwa kaputte Tabellenstrukturen, fehlende oder nicht auflösbare Fußnoten oder inkonsistente Verweise. Solche Probleme werden im RAG-System nicht korrigiert, sondern verstärken sich und führen zu falschen oder irreführenden Antworten.

Mehrschad Zaeri Esfahani

Mehrschad Zaeri Esfahani

Ein weiterer Fallstrick ist das Thema Chunking. Wenn Inhalte falsch geschnitten werden, gehen Zusammenhänge verloren. Ohne saubere Strategie entstehen inkonsistente oder unvollständige Antworten. Hinzu kommt ein oft unterschätztes Datenschutzproblem: Bei der Aufbereitung von PDFs setzen viele Anbieter auf externe KI-Dienste, etwa von Mistral, Gemini oder anderen. Dabei werden häufig komplette Dokumente an diese Anbieter übertragen. Dieser Aspekt wird in Projekten erstaunlich oft nicht transparent gemacht. Damit entsteht eine potenzielle Lücke im Datenschutz, die gerade für Fachverlage mit sensiblen Inhalten kritisch sein kann. Und schließlich unterschätzen viele den Aufwand für die Datenaufbereitung insgesamt. RAG ist kein Plug-and-Play-Produkt, sondern stark abhängig von der Qualität der Datenpipeline.

Ihr seht auch ein Vendor LockIn. Worin besteht das und wie kann das, mit Bitte um kurze Antwort, vermieden werden?

Das Lock-in entsteht, wenn Daten, Chunking und Embeddings fest an einen Anbieter oder ein bestimmtes System gekoppelt sind. Ein typisches Beispiel aus der Praxis sind RAG-Systemanbieter, die die komplette Aufbereitung der Daten übernehmen, insbesondere ausgehend von PDFs. Diese Anbieter lassen sich die Transformation von PDF zu Chunks bezahlen, speichern die Ergebnisse aber in proprietären Formaten oder Systemen. Ein Wechsel ist dann kaum möglich, ohne den gesamten Prozess erneut durchlaufen zu müssen. Das heißt, man beginnt wieder bei null mit der Datenaufbereitung, was Zeit und Kosten verursacht und faktisch zu einem Vendor Lock-in führt. Zusätzlich werden oft auch Embeddings und Indizes nicht portabel gehalten, sodass sie nicht ohne Weiteres in andere Systeme übernommen werden können. Vermeidung: Eine eigene, technologieneutrale Datenbasis aufbauen, idealerweise in einem strukturierten Format wie XML, und die RAG-Pipeline so gestalten, dass Chunks dynamisch erzeugt werden können. So bleibt man unabhängig von LLMs, Embedding-Modellen und Datenbanken

Was also müssen Verlage machen, um RAG-Systeme wirklich optimal einzusetzen?
Sie müssen weg von der Idee einer schnellen Lösung und hin zu einer nachhaltigen Datenstrategie. Konkret bedeutet das:

  • strukturierte Daten als Grundlage nutzen oder aufbauen
  • Inhalte semantisch anreichern, z. B. mit Metadaten
  • eine flexible Chunking-Strategie entwickeln
  • eine eigene Datenpipeline etablieren, die unabhängig von einzelnen Tools ist
  • RAG als Bestandteil eines größeren Content-Delivery-Systems verstehen

Der entscheidende Punkt ist: Die Qualität des Systems hängt direkt an der Qualität der Daten und ihrer Struktur.

Euer Vortrag auf dem CrossMediaForum lautet: „RAG in der Praxis: Warum die meisten Systeme scheitern, bevor sie wirken“. Was wird die Kernbotschaft sein?
Die Kernbotschaft ist, dass die meisten RAG-Projekte nicht an der KI scheitern, sondern an der Datenbasis. Viele starten zu schnell mit Tools und ignorieren die strukturellen Voraussetzungen. Ohne saubere Daten, durchdachtes Chunking und eine flexible Architektur liefern selbst die besten Modelle keine verlässlichen Ergebnisse. RAG funktioniert dann gut, wenn man es nicht als KI-Feature versteht, sondern als Datenproblem. Wer seine Inhalte strukturiert, versioniert und semantisch erschließt, hat die Grundlage für funktionierende Systeme. Wer das nicht tut, wird auch mit der besten Technologie scheitern.

Manuel Montero Pineda und Mehrschad Zaeri Esfahani werden ihre Thesen auf dem 28. CrossMediaForum vorstellen.

 

Der H&F-Newsletter: Branchentrends, Impulse und unsere Events

Wir senden keinen Spam! Erfahre mehr in unserer Datenschutzerklärung.