Zuverlässigkeit, sagt Andreas Blumauer, ist nicht unbedingt die Kernkompetenz der KI. Deshab empiehlt er den Insatz von RAG-Systemen (Retrieval Augmented Generation), und zwar in der Form von „GraphRAG“: Fachmedienanbietern bieten sich so zahlreiche Vorteile für Entwickler und User, die von Personalisierung, assistierter Frageformulierung, bis hin zu verbesserter Nachvollziehbarkeit reichen.
KI-Tools, vor allem die berühmten LLMs, machen permanent Fortschritte. Warum braucht ein Verlag da noch eine zusätzliche Qualitätssicherung?
Qualitätskontrollen schützen die Integrität und Reputation des Verlags und bleiben aus vielerlei Gründen weiterhin wichtig, u.a. um Urheberrechtsverletzungen zu vermeiden, Konsistenz in Bezug auf die spezifische Tonalität und den Stil eines Verlags zu gewährleisten, Zielgruppenorientierung bzw. individuelle Bedürfnisse und Erwartungen der Leserschaft sicherzustellen und auch, dass Inhalte den ethischen Richtlinien des Verlags entsprechen. Zudem bleibt es weiterhin die Kernkompetenz der Verlage, menschliche Kreativität und Originalität einzubringen, die für hochwertige Inhalte oft entscheidend sind und vor allem Verbindungen zwischen verschiedenen Themengebieten herzustellen, die KI möglicherweise übersieht. Was „Qualität“ in einem Verlag tatsächlich bedeutet, das wird letztendlich weiterhin der Mensch bestimmen, keinesfalls eine KI alleine.
Vor allem Fachverlage leben von der Zuverlässigkeit ihrer Inhalte. Was müssen sie tun, um diese auch beim KI-Einsatz zu gewährleisten?
Zuverlässigkeit ist nicht unbedingt die Kernkompetenz der KI. Jedoch können insbesondere Retrieval Augmented Generation (RAG)-Systeme, wenn sie angemessen konfiguriert und mit fachspezifischen, gut strukturierten Inhalten unterfüttert werden, ausgezeichneten Support bei der Content-Recherche, Erstellung, bzw. bei der Distribution, also entlang des gesamten Content-Life-Cycles, leisten. Dabei sollten die Möglichkeiten und Grenzen der KI weder über- noch unterschätzt werden, und der Mensch weiterhin im Pilotensessel sitzen bleiben.
GraphRAG-Systeme bieten ausgezeichneten Support bei der Content-Recherche, Erstellung, bzw. bei der Distribution, also entlang des gesamten Content-Life-Cycles.
RAG-Systeme (Retrieval Augmented Generation) sind also eine Antwort. Gibt es die „von der Stange“, oder muss ich als Verlag hier selbst aktiv werden? Und wenn ja, wie?
„Von der Stange“ gibt es allenfalls Vektor-basierte RAG Systeme, die aber höchstens den Ansprüchen privater Endverbraucher gerecht werden. Die Industrie ist da bei weitem skeptischer, und viele Pilotprojekte haben gezeigt, dass weder LLMs alleine, noch VektorRAG ausreichend gute Ergebnisse erzielen, wodurch nun der Ball bei den so genannten ‚GraphRAG‘-Lösungen liegt, also der Verdrahtung von LLMs mit Wissensgraphen. Graphen können Daten, Inhalte und das Wissen der Unternehmen und Verlagshäuser nicht nur gut strukturiert abbilden, sondern sogar auf effiziente Weise vernetzen, um damit die KI in die richtigen Bahnen zu lenken und Antworten besser nachvollziehbar zu machen.
Können sich das nur große Verlage leisten? Andersherum gefragt Wie gehe ich das an und welchen Aufwand entsteht?
Oder andersherum beantwortet: wer kann es sich leisten, NICHT bei der nächsten Stufe der Digitalisierung mitzumachen? Dass die Content-Wertschöpfungsketten im Zuge der aktuellen KI-Disruption von der Basis auf neu konfiguriert werden, scheint mittlerweile allen Akteuren klar zu sein. Es geht also um neue Partnerschaften und Allianzen und auch um neue Wege, Inhalte an den Point-of-Sales zu bringen, insbesondere, wenn es um spezifische Inhalte für die Industrie geht. Wollen Verlage weiterhin eine Rolle auch abseits der reinen Content-Erstellung spielen, dann kommen sie nicht umhin, in Infrastruktur zu investieren, die komplexe RAG-Architekturen unter Einbeziehung von Wissensgraphen erlaubt.
Wollen Verlage weiterhin eine Rolle auch abseits der reinen Content-Erstellung spielen, dann kommen sie nicht umhin, in Infrastruktur zu investieren, die komplexe RAG-Architekturen unter Einbeziehung von Wissensgraphen erlaubt.
Wie gehe ich ein RAG-Projekt an?
Zunächst einmal müssen Anwendungsfelder und konkrete Use Cases spezifiziert werden, um auch den Nutzen des RAG-Projekts anschließend messbar machen zu können. Idealerweise steht eine Goldstandard zur Verfügung, z.B. verifizierte Frage-Antwort-Paare, um die Präzision des Systems, und dieses wird ja üblicherweise in mehreren Iterationsschritten optimiert, messen zu können. Jedenfalls ist es wichtig, ein Projekt-Setup zu finden, das die Zusammenarbeit der Fachexperten, Endnutzer und Datenwissenschaftler unterstützt. Im schlimmsten Fall schrauben Dateningenieure monatelange am RAG-System herum, ohne jemals wirklich den Nutzen gemessen zu haben. Daher spielen auch Wissensgraphen, und damit GraphRAG, eine so große Rolle, da sie die Brücke zwischen den Domänenexperten auf der einen Seite, und den Datenwissenschaftlern auf der anderen Seite bilden können. Wissensmodellierung und damit verbundene Governance Modelle sollten also bei jedem RAG-Projekt eine zentrale Rolle spielen. Natürlich kann man sich dennoch mit VektorRAG zu Beginn ein Bild machen, wie schnell man mit KI an seine Grenzen stößt.
Dein Vortrag auf dem CrossMediaForum KI-Spezial lautet „Generative KI zuverlässig machen – Wie geht das?“. Was wird die Kernbotschaft sein.
Was „zuverlässig“ bedeutet, definieren Anwender bzw. Domänenexperten. Um deren Fachwissen in die Entwicklung eines RAG-Systems effizient einbringen zu können, benötigt es ein digitales Interface, welches in Form von semantischen Wissensmodellen bereitgestellt werden kann. Mit einer GraphRAG-Architektur eröffnen sich zahlreiche Vorteile für Entwickler und User, die von Personalisierung, assistierter Frageformulierung, bis hin zu verbesserter Nachvollziehbarkeit reichen. Mehr dazu (inkl. White Paper): Graph Grounding of LLMs.
Andreas Blumauer ist CEO der Semantic Web Company GmbH und Referent auf dem 26. CrossMediaForum KI-Spezial am 5. November 2024 in München.