Sprachmodelle sind beeindruckend, aber nicht unfehlbar. Wenn sie Informationen erfinden, spricht man von Halluzinationen. Aktuelle Forschung zeigt: Dahinter stecken vor allem ein ungünstiges Trainingsziel, Verteilungsverschiebungen und fehlerhafte Kalibrierung. Entscheidend ist, wie wir testen – präzisere Evaluationsverfahren können Zuverlässigkeit, Ehrlichkeit und Sicherheit deutlich erhöhen.
Halluzinationen lassen sich systematisch reduzieren, wenn Modelle auf Wahrheitsbindung, Unsicherheit und Quellenbezug getestet und optimiert werden – nicht nur auf sprachliche Plausibilität.
Was hinter Halluzinationen steckt
Wahrscheinlichkeit statt Wahrheit
Sprachmodelle optimieren auf die wahrscheinlichste nächste Wortfolge – nicht auf die Wahrheit. Das führt zu Antworten, die überzeugend klingen, aber inhaltlich falsch sein können. Besonders betroffen sind seltene Fakten, lange Ableitungen und Situationen mit widersprüchlichen Quellen.
Verteilungsverschiebung und fehlender Kontext
Modelle geraten ins Stolpern, wenn Eingaben von den Trainingsdaten abweichen oder aktuelle Informationen fehlen. Ohne Zugriff auf verlässliche Belege extrapolieren sie aus Mustern – ein Nährboden für Erfindungen.
Überkonfidenz durch fehlerhafte Kalibrierung
Viele Modelle formulieren Antworten zu bestimmt, selbst wenn ihre interne Unsicherheit hoch ist. Ursache ist oft eine unzureichende Kalibrierung: Der ausgedrückte Grad an Sicherheit passt nicht zur tatsächlichen Trefferquote.
Belohnung und Anreize
Verfahren zur Feinabstimmung (etwa Belohnungssignale für hilfreiche Antworten) können unbeabsichtigt die Hilfsbereitschaft über die Wahrheitstreue stellen. Das Modell lernt, selbst bei dünner Beweislage flüssig weiterzuschreiben.
Wie bessere Tests helfen
Evaluationsdesign, das Halluzinationen sichtbar macht
- Faktentreue mit Quellenpflicht: Antworten müssen verifizierte Belege liefern; bewertet werden Richtigkeit und Belegtreue (kein Zitieren erfundener Quellen).
- Paraphrase- und Robustheitstests: Gleiche Frage, unterschiedliche Formulierung – die Aussage darf sich nicht ändern.
- Out-of-Distribution-Checks: Neue Domänen und aktuelle Ereignisse prüfen, ob das Modell Unsicherheit angemessen kommuniziert.
- Multi-Hop-Reasoning: Aufgaben, die mehrere Belege verknüpfen, decken Verwechslungen und Abkürzungen auf.
- Tool-Nutzung unter Aufsicht: Tests mit Suche, Retrieval oder Rechenwerkzeugen messen die korrekte Tool-Auswahl und die Quelle-zu-Antwort-Konsistenz.
- Adversariale Prompts: Irreführende oder mehrdeutige Eingaben prüfen die Fähigkeit, nachzufragen statt zu erfinden.
Metriken, die zählen
- Kalibrierung: Brier Score und Expected Calibration Error messen, ob ausgesprochene Sicherheit zur Trefferquote passt.
- Faktentreue-Scores: Bewertung der Belegbarkeit (z. B. Zitierpräzision/-vollständigkeit) und der Übereinstimmung mit Quellen.
- Stabilität: Antwortkonsistenz bei Paraphrasen, Temperatur-Variationen und erneuten Abfragen.
- Human-in-the-Loop: Blinde Doppelbewertungen für sensible Domänen, um automatische Metriken zu validieren.
Testen als Prozess, nicht als Punktmessung
Gute Evals sind zyklisch. Teams setzen auf kontinuierliche Regressionstests, regelmäßige Datenaktualisierung, gezielte Ablationen und strukturiertes Red-Teaming. So werden neue Fehlerklassen früh sichtbar.
Praktische Maßnahmen für Teams
- Retrieval-Augmented Generation (RAG): Antworten nur mit belegten Passagen generieren; Quellen verpflichtend ausgeben.
- Strukturierte Ausgaben: Schema-Validierung, Function Calling und constrained decoding reduzieren Freitext-Fantasien.
- Unsicherheit explizit machen: Erlaube Abstufungen (z. B. „wahrscheinlich“, „unklar“) und fordere Nachfragen bei fehlenden Fakten.
- Konsensverfahren: Mehrfachabfragen oder Self-Check-Prüfpfade erhöhen Robustheit, ohne interne Gedankengänge preiszugeben.
- Domänenspezialisierung: Für Medizin, Recht oder Finanzen nur kuratierte Wissensquellen und strengere Prüfpfade zulassen.
- Schutzgeländer: Fallback auf Suche oder Expertensysteme, wenn das Modell keine belastbaren Belege findet.
Was Nutzerinnen und Nutzer tun können
- Nach Quellen fragen: „Bitte mit verifizierbaren Referenzen und Links“ reduziert freie Erfindungen.
- Zeithorizont klären: „Stand: Monat/Jahr?“ verhindert veraltete Antworten.
- Präzise Aufgabenstellung: Klare Kriterien (Format, Umfang, Datenbasis) verringern Interpretationsspielraum.
- Warnsignale erkennen: Hochspezifische Zahlen ohne Quelle, zu glatte Formulierungen oder widersprüchliche Details kritisch prüfen.
Blick nach vorn
Die Richtung ist klar: Sprachmodelle werden zuverlässiger, wenn sie auf Wahrheitsbindung, Quellenbezug und Unsicherheit optimiert werden. Fortschritte bei Evaluationsmethoden – von kalibrierten Metriken bis zu realitätsnahen Stresstests – machen den Unterschied zwischen eloquenter Antwort und belastbarer Information. Wer konsequent prüft, bekommt bessere Modelle.