Warum kann man LLMs das Halluzinieren nicht austreiben?

Frage

Warum kann man dem LLM das Halluzinieren nicht einfach abtrainieren?

Kurze Antwort

Weil Halluzinieren und „kreativ antworten" derselbe Mechanismus ist. Man kann das eine nicht abschalten, ohne das andere kaputtzumachen.

Die 5 Gründe

GrundErklärung
Gleicher MechanismusNützliche Textgenerierung und Halluzination basieren auf demselben Prinzip: Vorhersage des nächsten Worts
Kein FaktenspeicherEs gibt keine interne Datenbank zum Nachschlagen – nur gelernte Muster
Training belohnt Flüssigkeit„Ich weiß es nicht" kommt in Trainingsdaten selten vor und wird kaum belohnt
Kein Meta-WissenDas Modell kann nicht unterscheiden zwischen „das weiß ich sicher" und „das klingt plausibel"
Trade-offZu starke Einschränkung macht das Modell extrem konservativ und für viele Aufgaben unbrauchbar

Das Kernproblem

Ein LLM funktioniert so:

Dieser Prozess unterscheidet nicht zwischen „Fakt wiedergeben" und „plausibel klingenden Unsinn erzeugen". Beides ist für das Modell einfach: das nächste wahrscheinliche Wort ausgeben.

Warum RLHF nicht reicht

Durch RLHF (Reinforcement Learning from Human Feedback) versucht man, das Modell zu „erziehen". Aber:

Analogie: Es ist wie bei einem Menschen, der extrem redegewandt ist aber nie „keine Ahnung" sagt – die Eloquenz und die Bullshit-Gefahr kommen aus derselben Quelle.

Was stattdessen hilft

← Zurück zur KI-Übersicht