Die meisten RAG-Projekte scheitern nicht an der KI, sondern an der Datenbasis

RAG-Systeme versprechen Fachverlagen schnellen Zugang zu ihrem Wissen – doch viele Projekte scheitern früh. Nicht die KI ist das Problem, sondern schlechte Daten, falsches Chunking und naive PDF-Strategien. Wer RAG erfolgreich einsetzen will, braucht eine saubere, strukturierte und nachhaltige Datenbasis, erläutern Manuel Montero Pineda, Geschäftsführer data2type GmbH, und Mehrschad Zaeri Esfahani, Geschäftsführer parsQube GmbH, im folgenden Interview.

Warum haben „RAG-Systeme“ gerade so eine große Konjunktur bei Fachverlagen?

Manuel Montero Pineda

Fachverlage sitzen auf großen Mengen hochwertiger Inhalte, die bislang nur schwer zugänglich sind. RAG-Systeme versprechen, genau diese Inhalte über natürliche Sprache direkt nutzbar zu machen. Das ist ein enormer Mehrwert für Kunden, weil Wissen nicht mehr gelesen, sondern abgefragt werden kann. Gleichzeitig sind die Erwartungen an KI-gestützte Systeme stark gestiegen. Verlage stehen unter Druck, ihre Inhalte in moderne, interaktive Formate zu überführen. RAG wirkt hier wie eine vergleichsweise schnelle Lösung, weil bestehende Inhalte weiterverwendet werden können, ohne sie komplett neu aufzubereiten.

Nach meiner Beobachtung suchen Verlage die schnelle RAG-Lösung. Ihr sehr hier allerdings Fallstricke. Welche sind das?
Der größte Fallstrick ist die Annahme, dass man „einfach PDFs in ein System werfen“ kann und gute Ergebnisse bekommt. Genau das funktioniert in der Praxis nicht zuverlässig. Unstrukturierte Formate wie PDFs verlieren wichtige Informationen wie semantische Zusammenhänge, Fußnoten oder Referenzen. Das führt zu schlechteren Antworten und teilweise falschen Ergebnissen. Strukturierte Formate liefern dagegen deutlich präzisere Resultate, weil Kontext und Beziehungen erhalten bleiben. Ein weiterer kritischer Punkt ist die Qualität der Datengrundlage für das Retrieval. Diese muss zwingend geprüft werden. In der Praxis sieht man häufig fehlerhafte Inhalte, etwa kaputte Tabellenstrukturen, fehlende oder nicht auflösbare Fußnoten oder inkonsistente Verweise. Solche Probleme werden im RAG-System nicht korrigiert, sondern verstärken sich und führen zu falschen oder irreführenden Antworten.

Das Lock-in entsteht, wenn Daten, Chunking und Embeddings fest an einen Anbieter oder ein bestimmtes System gekoppelt sind.

Mehrschad Zaeri Esfahani

Ein weiterer Fallstrick ist das Thema Chunking. Wenn Inhalte falsch geschnitten werden, gehen Zusammenhänge verloren. Ohne saubere Strategie entstehen inkonsistente oder unvollständige Antworten. Hinzu kommt ein oft unterschätztes Datenschutzproblem: Bei der Aufbereitung von PDFs setzen viele Anbieter auf externe KI-Dienste, etwa von Mistral, Gemini oder anderen. Dabei werden häufig komplette Dokumente an diese Anbieter übertragen. Dieser Aspekt wird in Projekten erstaunlich oft nicht transparent gemacht. Damit entsteht eine potenzielle Lücke im Datenschutz, die gerade für Fachverlage mit sensiblen Inhalten kritisch sein kann. Und schließlich unterschätzen viele den Aufwand für die Datenaufbereitung insgesamt. RAG ist kein Plug-and-Play-Produkt, sondern stark abhängig von der Qualität der Datenpipeline.

Ihr seht auch ein Vendor LockIn. Worin besteht dieser und wie kann das vermieden werden?
Das Lock-in entsteht, wenn Daten, Chunking und Embeddings fest an einen Anbieter oder ein bestimmtes System gekoppelt sind. Ein typisches Beispiel aus der Praxis sind RAG-Systemanbieter, die die komplette Aufbereitung der Daten übernehmen, insbesondere ausgehend von PDFs. Diese Anbieter lassen sich die Transformation von PDF zu Chunks bezahlen, speichern die Ergebnisse aber in proprietären Formaten oder Systemen. Ein Wechsel ist dann kaum möglich, ohne den gesamten Prozess erneut durchlaufen zu müssen. Das heißt, man beginnt wieder bei null mit der Datenaufbereitung, was Zeit und Kosten verursacht und faktisch zu einem Vendor Lock-in führt. Zusätzlich werden oft auch Embeddings und Indizes nicht portabel gehalten, sodass sie nicht ohne Weiteres in andere Systeme übernommen werden können. Vermeidung: Eine eigene, technologieneutrale Datenbasis aufbauen, idealerweise in einem strukturierten Format wie XML, und die RAG-Pipeline so gestalten, dass Chunks dynamisch erzeugt werden können. So bleibt man unabhängig von LLMs, Embedding-Modellen und Datenbanken

Was also müssen Verlage machen, um RAG-Systeme wirklich optimal einzusetzen?
Sie müssen weg von der Idee einer schnellen Lösung und hin zu einer nachhaltigen Datenstrategie. Konkret bedeutet das:

strukturierte Daten als Grundlage nutzen oder aufbauen
Inhalte semantisch anreichern, z. B. mit Metadaten
eine flexible Chunking-Strategie entwickeln
eine eigene Datenpipeline etablieren, die unabhängig von einzelnen Tools ist
RAG als Bestandteil eines größeren Content-Delivery-Systems verstehen

Der entscheidende Punkt ist: Die Qualität des Systems hängt direkt an der Qualität der Daten und ihrer Struktur.

Wir halten einen strukturierten, formatgetriebenen RAG-Ansatz für deutlich geeigneter, insbesondere wenn man langfristig skalierbare und qualitativ verlässliche Systeme aufbauen will.

Aktuell wird das Thema RAG auch im Zusammenhang mit dem LLM-Wiki-Konzept von Andrej Karpathy diskutiert. Wie relevant ist dieser Ansatz für Verlage?
Das Thema ist aus meiner Sicht sehr relevant, aber nicht unbedingt in der Form, wie es aktuell oft diskutiert wird. Verlage arbeiten mit hochstrukturierten Inhalten, insbesondere im wissenschaftlichen Bereich. Diese enthalten Fußnoten, Literaturverweise, semantische Einheiten wie Abstract, Methodik oder Ergebnisse sowie komplexe interne Bezüge. Unsere Untersuchungen zeigen klar, dass strukturierte Formate hier entscheidend sind, weil sie deutlich präzisere und kontextreichere Antworten ermöglichen als unstrukturierte Quellen wie PDFs. Ein Wiki-Ansatz, wie er im Artikel beschrieben wird, ist grundsätzlich spannend. Allerdings lebt ein Wiki stark von Querverlinkungen und einer netzartigen Wissensstruktur. Genau diese Struktur ist in klassischen Verlagsinhalten in der Regel nicht vorhanden, zumindest nicht in der Form, wie sie ein Wiki benötigt. Bücher sind eher linear aufgebaut und ihre semantischen Beziehungen sind implizit, nicht explizit modelliert.

Hinzu kommt, dass ein Wiki zunächst einmal als Datenbasis existieren muss. Für viele Verlage bedeutet das, dass sie ihre Inhalte erst aufwendig transformieren müssten, bevor ein solcher Ansatz überhaupt sinnvoll einsetzbar ist. Auch die Empfehlung, mit Markdown zu arbeiten, sehe ich kritisch. Markdown ist bewusst einfach gehalten, kennt aber keine komplexeren Strukturen wie differenzierte Fußnotenmodelle, semantische Annotationen oder strukturierte Referenzen. Gerade diese Elemente sind jedoch entscheidend, wenn man qualitativ hochwertige Antworten im Retrieval-Prozess erzeugen möchte. Vor diesem Hintergrund halte ich einen strukturierten, formatgetriebenen RAG-Ansatz für deutlich geeigneter, insbesondere wenn man langfristig skalierbare und qualitativ verlässliche Systeme aufbauen will.

Euer Vortrag auf dem CrossMediaForum lautet: „RAG in der Praxis: Warum die meisten Systeme scheitern, bevor sie wirken“. Was wird die Kernbotschaft sein?
Die Kernbotschaft ist, dass die meisten RAG-Projekte nicht an der KI scheitern, sondern an der Datenbasis. Viele starten zu schnell mit Tools und ignorieren die strukturellen Voraussetzungen. Ohne saubere Daten, durchdachtes Chunking und eine flexible Architektur liefern selbst die besten Modelle keine verlässlichen Ergebnisse. RAG funktioniert dann gut, wenn man es nicht als KI-Feature versteht, sondern als Datenproblem. Wer seine Inhalte strukturiert, versioniert und semantisch erschließt, hat die Grundlage für funktionierende Systeme. Wer das nicht tut, wird auch mit der besten Technologie scheitern.

Manuel Montero Pineda und Mehrschad Zaeri Esfahani werden ihre Thesen auf dem 28. CrossMediaForum vorstellen.

Der H&F-Newsletter: Branchentrends, Impulse und unsere Events

Ähnliche Beiträge

Digitalprodukte nicht als nachgelagerte “Derivate”, sondern als Resultat intelligent strukturierter Workflows

Die Big Five für den Erfolg von Content-Management-Projekten

Das Content Management muss Enabler und Vordenker für das Produktmanagement werden