Datenrohstoff der KI-Welt: Verlage müssen den Prozess des Chunkings selbst in die Hand nehmen

Chunks sind der "Datenrohstoff der KI-Welt", stellt Carsten Schwab in folgendem Interview fest. Deshalb sollten Chunks nicht in "Black-Box-artigen RAG-Systemen versteckt" und den Verlagen vorenthalten werden. Als Konsequenz daraus müssen Verlage den Prozess des Chunkings selbst in die Hand nehmen und automatisieren sowie eine gute Skalierbarkeit gewährleisten.

Nicht nur, aber vor allem Fachverlage bauen RAG-Systeme auf. Was ist die Motivation dahinter?

Carsten Schwab

Carsten Schwab

Für Fach- und Bildungsverlage sind RAG-Systeme als Geschäftsmodell besonders naheliegend. Sie ermöglichen einen schnellen und einfachen Zugang zu Wissen. Der Aufbau fachspezifischer RAG-Systeme bietet die Möglichkeit, sinkenden Print-Umsätzen ein neues Geschäftsmodell entgegenzusetzen. Das funktioniert aber nur, wenn die inhaltliche Qualität so viel besser ist als die Ergebnisse der kostenlos verfügbaren Angebote im Netz, dass Kunden bereit sind, dafür Geld auszugeben.

Warum reicht es für die Qualitätssicherung nicht aus, nur auf RAG-Systeme zu setzen?
Die Frage ist meiner Meinung nach falsch gestellt. Sie müsste lauten: Wie kann die Qualität der Antworten geprüft und sichergestellt werden, die RAG-Systeme liefern? Hierfür liegt der Schlüssel in optimal strukturierten und aufbereiteten Inhaltsdaten, auf die der Verlag jeder Zeit direkten Zugriff hat.

Wie komme ich als Verlag zu strukturierten und optimal aufbereiteten Inhaltsdaten?
Wir kennen seit mehr als zwanzig Jahren den Begriff der medienneutralen Datenhaltung. Im Zeitalter von KI müssen Verlage zusätzlich eine «chunkneutrale» Datenhaltung etablieren. Sie sollten ihren Content in ein strukturiertes XML-Format überführen, aus dem heraus sie je nach Verwendungszweck und verwendetem Sprachmodell vollautomatisch die passende Datengrundlage für das eingesetzte RAG-System generieren können, und das immer wieder neu und mit der immer gleich zuverlässigen Datenqualität.

Was bedeutet „Chunking“ und „Embedding“?
Chunks sind kleine, inhaltlich sinnvolle Einheiten von Text oder anderen Datenformaten. Sie sind der Wissensrohstoff der gesamten KI-Welt – unverzichtbar für RAG, Agenten, Automatisierung und Daten-Pipelines. «Chunking» bedeutet, Inhalte in diese Dateneinheiten zu zerlegen, aus denen ein RAG-System seine Antworten generieren kann. Ein Embedding ist eine vom KI-Modell erzeugte Liste von Zahlen, die die Bedeutung eines Textes oder Inhalts beschreibt. Jedes Dokument, jeder Satz oder jede Anfrage wird in so einen Zahlen-Vektor umgewandelt und in einer Datenbank gespeichert. Inhalte, die sich inhaltlich ähnlich sind, liegen als Vektoren in diesem «multidimensionalen Zahlenraum» nah beieinander. So kann ein System schnell herausfinden, welche gespeicherten Texte am besten zu einer Frage passen und darauf basierend eine Antwort erzeugen. Klingt wahnsinnig abstrakt, ich kann es mir selbst nicht richtig vorstellen. Aber es funktioniert.

Welche Inhalte kann ich in eine solche Content-Datenbank geben?
Die Basis solcher Systeme bilden Textinhalte. Da unser Content aber auch Bilder, Grafiken und audiovisuelle Medien enthält, muss deren Informationsgehalt als Text extrahiert werden, damit er Eingang in den Wissensschatz der Datenbank findet.

Dein Vortrag auf dem CrossMediaForum lautet «Show Me Your Chunks». Was wird die Kernbotschaft sein?
Chunks sind der Datenrohstoff der KI-Welt. Deshalb sollten Verlage die vollständige Datenhoheit über ihre Chunks sicherstellen. Das bedeutet einerseits, dass Chunks nicht in Black-Box-artigen RAG-Systemen versteckt und den Verlagen vorenthalten werden dürfen. Andererseits ergibt sich daraus, dass Verlage den Prozess des Chunkings selbst in die Hand nehmen und automatisieren sowie eine gute Skalierbarkeit gewährleisten sollen.

Carsten Schwab ist Inhaber und Geschäftsführer der XPS AG in Zürich und Referent beim 27. CrossMediaForum KI-Spezial am 27.11.2025.

 

Der H&F-Newsletter: Branchentrends, Impulse und unsere Events

Wir senden keinen Spam! Erfahre mehr in unserer Datenschutzerklärung.