RAG ohne Halluzinationen

Künstliche Intelligenz, die Fakten erfindet, ist für den produktiven Einsatz wertlos. Ein Standard-RAG (Retrieval-Augmented Generation) reicht oft nicht aus, um die nötige Zuverlässigkeit zu garantieren. Um echte "Ground Truth" zu erreichen, muss die Pipeline massiv abgesichert werden.

Dieser Artikel erklärt die sieben Stufen einer Pipeline, die Halluzinationen systematisch eliminiert.

1. Hybrid Search: Doppelt hält besser

Die Suche nach Informationen erfolgt auf zwei Wegen gleichzeitig:

Semantic Search: Versteht die Bedeutung und den Kontext (z. B. "Auto" findet auch "Fahrzeug").
Keyword Search (BM25): Findet exakte Fachbegriffe oder Artikelnummern, bei denen die Bedeutungssuche oft scheitert. Der Nutzen: Wir kombinieren "Verständnis" mit "Präzision", damit kein relevanter Quelltext übersehen wird.

2. Reciprocal Rank Fusion (RRF): Die Demokratisierung der Ergebnisse

Zwei Suchverfahren liefern zwei unterschiedliche Listen. RRF ist ein mathematischer Algorithmus, der beide Listen zu einer einzigen, fairen Rangliste verschmilzt. Dokumente, die in beiden Suchen weit oben stehen, landen ganz vorne. Der Nutzen: Die KI erhält nur die Dokumente, die nach beiden Methoden am wahrscheinlichsten die Antwort enthalten.

3. Cross-Encoder Re-Ranking: Der tiefe Blick

Die bisherige Suche war schnell, aber oberflächlich. Der Cross-Encoder schaut sich nun die Top-10-Ergebnisse im Detail an und vergleicht sie direkt mit der Nutzerfrage. Das ist rechenintensiv, aber extrem präzise. Der Nutzen: Unwichtige Informationen werden gnadenlos aussortiert. Nur die besten 5 landen in der Verarbeitung.

4. Context Ordering: Gegen die Vergesslichkeit

KI-Modelle leiden unter dem "Lost-in-the-Middle"-Phänomen: Sie verarbeiten Informationen am Anfang und am Ende eines Textes besser als in der Mitte. Der Nutzen: Wir sortieren die wichtigsten Fakten ganz nach oben und nach unten. So wird sichergestellt, dass die KI die entscheidenden Details nicht ignoriert.

5. Generator mit Grounding-Prompt: Belege erbeten

Das Sprachmodell wird durch strikte Anweisungen (Prompting) gezwungen, nur auf Basis der gelieferten Daten zu antworten. Jede Aussage muss mit einer Quellenangabe (z. B. [1]) belegt werden. Der Nutzen: Keine Antwort ohne Beweis. Der Nutzer kann sofort prüfen, woher die Information stammt.

6. NLI Grounding Check: Der digitale Lügendetektor

Hier schalten wir eine zweite, kleine KI (DeBERTa) dazwischen. Diese prüft jede einzelne Aussage der generierten Antwort gegen die Quelltexte. Steht die Behauptung wirklich so im Text? Der Nutzen: Wenn die KI behauptet "Der Umsatz stieg um 10%", die Quelle aber nur von "Wachstum" spricht, wird die Aussage als nicht belegt markiert.

7. Confidence Scoring: Transparenz statt Blindflug

Am Ende steht ein Score auf drei Ebenen:

Retrieval: Wie gut passen die gefundenen Quellen zur Frage?
Coverage: Deckt die Antwort alle Aspekte der Frage ab?
Self-Assessment: Die KI schätzt selbst ein, wie sicher sie sich ist. Der Nutzen: Der Entscheider sieht sofort: "Dieser Antwort können wir zu 98% vertrauen" – oder eben nur zu 60%.