Die Entwicklung eines RAG-Modells ist keine Geheimwissenschaft

ChatGPT & Co. stellen für Fachverlage vor große Herausforderungen, machen diese doch auch Fachwissen in ganz neuer Weise zugänglich. Mit Plastics.ai gibt der Hanser Verlag eine Antwort. Michael Justus, Verlagsleiter Fachbuch, und Jörg Strohbach, Leitung Digitale Produktion Fachbuch, sind sich sicher: "Mit dem gesicherten Wissen aus unserer Fachliteratur und etwas Technik-Know-how sind wir in der Lage, die verbreiteten Chatbots in manchen Belangen sogar zu übertrumpfen." Wie das geht und warum RAG-Modelle keine Geheimwissenschaft sind, erläutern sie in diesem Interview.

Wie wird aus Fachbüchern eine befragbare Wissensdatenbank?

Michael Justus

In einem ersten Schritt muss der Inhalt der Fachbücher maschinenlesbar werden. Der Königsweg dorthin führt nach wie vor über XML. Bei komplexer naturwissenschaftlich-technischer Fachliteratur hält das einige Herausforderungen bereit. Hinter der XML-Strukturierung und der darauf aufbauenden digitalen Wiedergabe aller Varianten unseres Contents stecken ein paar Jahre Arbeit. Gleichzeitig müssen die Verwaltung und der Fluss der Daten organisiert werden. Dann hat man eine Datenbank. Um sie „befragbar“ zu machen in dem Sinne, dass man in einen „Chat“ mit ihr treten kann, muss die Wissensdatenbank in ein modernes RAG-System eingebunden werden.

 

Welche Rolle spielt dabei der Einsatz von KI?
KI kommt bei der Retrieval, bei der Verarbeitung der Nutzer-Anfragen und der Sprachausgabe der Antworten zu Einsatz. Kernbaustein für die Retrieval ist die Vektordatenbank. Hier liegen die in Zahlenreihen („Embeddings“) verwandelten Inhaltsabschnitte („Chunks). Die Embeddings können mit den ebenfalls vektorisierten Nutzerfragen anhand mathematischer Verfahren auf semantische Ähnlichkeit verglichen werden. So werden die zur Nutzerfrage passenden Inhalte gefunden. Sie werden dann an ein Large Language Model (LLM) wie etwa GPT-4.1  übergeben, um daraus die Antwort in natürlicher Sprache zu formulieren.

Was waren die besonderen Herausforderungen in Bezug auf die Contentaufbereitung und den Content-Workflow?

Jörg Strohbach

Wenn man ein typisches Fachbuch zu Maschinenbau oder Elektrotechnik aufschlägt, sieht man es sofort: Der Inhalt wird dominiert von mathematischen Formeln, komplexen Abbildungen, Tabellen und Codelistings in Programmiersprachen; dies alles wird durch den Text miteinander verbunden. Die größte Herausforderung war die Entwicklung einer Aufbereitungspipeline, die unsere XML-Inhalte zuverlässig in die für unser System benötigten Formate zerlegt und umwandelt. Unsere Quellenanzeige basiert auf HTML, der Embeddingprozess auf Markdown-Daten. Die Chunks werden anhand der Dokumentstruktur erstellt, wobei natürlich Regeln aufgestellt werden mussten, um inhaltlich zusammengehörende Element (z.B. Bild und Bildunterschrift) nicht zu trennen. Am Ende muss sichergestellt sein, dass zu jedem Embedding in der Vektordatenbank eine entsprechende HTML-Datei existiert, die dem Nutzer als Quelle angezeigt werden kann. Man muss viel eigenes Know-how aufbauen und Dienstleister finden, die bereit sind (und idealerweise auch Spaß daran haben) auf diese Reise zu gehen.

Der Launch von plastics.ai ist jetzt schon einige Zeit her – was sind die wichtigsten Erfahrungen, die Ihr gemacht habt?
Zunächst: Das Projekt hat uns Mut gemacht. Wir sind in der Lage, die Technik dahinter zu beherrschen und daraus zügig ein Produkt zu entwickeln und an den Markt zu bringen. Da konnten wir vorher nicht sicher sein. Seit dem Launch hat sich aber auch gezeigt: Produkte, die vor allem auch B2B-Softwarelösungen sind, verkaufen sich nicht einfach „von der Stange“ wie klassische Medien. Die Kunden, bei denen es anfängt, interessant zu werden, haben durchweg Sonderwünsche, auch was die Technik betrifft. Darauf müssen wir uns einstellen: im Vertrieb, in der Produktentwicklung, letztlich in der gesamten Verlags-Organisation.

Euer Vortrag auf dem CrossMediaForum lautet „plastics.ai: Blick unter die Motorhaube eines RAG-Modells für den Weltmarkt“. Was wird die zentrale Botschaft sein?
Wir wollen zeigen, dass hinter der Entwicklung eines RAG-Modells keine Geheimwissenschaft steckt. Verlage können so etwas! Deshalb wollen wir auch anderen Mut machen, sich der Sache anzunehmen. Es führt aus unserer Sicht kein Weg daran vorbei. Der Maßstab für die Erschließung von Wissen sind jetzt ChatGPT und Konsorten. Daran müssen sich die Produkte von Fachverlagen messen lassen. Mit dem Blick unter die Motorhaube wollen wir beweisen, dass das kein Grund ist, die Flinte ins Korn zu werfen. Mit dem gesicherten Wissen aus unserer Fachliteratur und etwas Technik-Know-how sind wir in der Lage, die verbreiteten Chatbots in manchen Belangen sogar zu übertrumpfen.

Michael Justus und Jörg Strohbach sind Referenten auf dem 27. CrossMediaForum KI-Spezial.

Der H&F-Newsletter: Branchentrends, Impulse und unsere Events

Wir senden keinen Spam! Erfahre mehr in unserer Datenschutzerklärung.