Warum kann man LLMs das Halluzinieren nicht austreiben?

Frage

Warum kann man dem LLM das Halluzinieren nicht einfach abtrainieren?

Kurze Antwort

Weil Halluzinieren und „kreativ antworten" derselbe Mechanismus ist. Man kann das eine nicht abschalten, ohne das andere kaputtzumachen.

Die 5 Gründe

Grund	Erklärung
Gleicher Mechanismus	Nützliche Textgenerierung und Halluzination basieren auf demselben Prinzip: Vorhersage des nächsten Worts
Kein Faktenspeicher	Es gibt keine interne Datenbank zum Nachschlagen – nur gelernte Muster
Training belohnt Flüssigkeit	„Ich weiß es nicht" kommt in Trainingsdaten selten vor und wird kaum belohnt
Kein Meta-Wissen	Das Modell kann nicht unterscheiden zwischen „das weiß ich sicher" und „das klingt plausibel"
Trade-off	Zu starke Einschränkung macht das Modell extrem konservativ und für viele Aufgaben unbrauchbar

Das Kernproblem

Ein LLM funktioniert so:

Es sieht den bisherigen Text
Es berechnet: „Welches Wort kommt als nächstes am wahrscheinlichsten?"
Es gibt dieses Wort aus und wiederholt den Vorgang

Dieser Prozess unterscheidet nicht zwischen „Fakt wiedergeben" und „plausibel klingenden Unsinn erzeugen". Beides ist für das Modell einfach: das nächste wahrscheinliche Wort ausgeben.

Warum RLHF nicht reicht

Durch RLHF (Reinforcement Learning from Human Feedback) versucht man, das Modell zu „erziehen". Aber:

Menschen können nicht alle Fakten prüfen, die ein Modell ausgibt
Flüssige, selbstsichere Antworten werden unbewusst höher bewertet
Das Modell lernt: „Klingt überzeugend" = gut – nicht: „Ist korrekt" = gut

Analogie: Es ist wie bei einem Menschen, der extrem redegewandt ist aber nie „keine Ahnung" sagt – die Eloquenz und die Bullshit-Gefahr kommen aus derselben Quelle.

Was stattdessen hilft

RAG – externe Quellen zur Antwortzeit einbinden
Tool Use – das Modell rechnet nicht selbst, sondern ruft Werkzeuge auf
Niedrige Temperatur – weniger Zufälligkeit, konservativere Antworten
Confidence Scores – das Modell gibt an, wie sicher es sich ist
Nutzer-Awareness – kritisch hinterfragen, was das Modell sagt

← Zurück zur KI-Übersicht