Warum kann man dem LLM das Halluzinieren nicht einfach abtrainieren?
Weil Halluzinieren und „kreativ antworten" derselbe Mechanismus ist. Man kann das eine nicht abschalten, ohne das andere kaputtzumachen.
| Grund | Erklärung |
|---|---|
| Gleicher Mechanismus | Nützliche Textgenerierung und Halluzination basieren auf demselben Prinzip: Vorhersage des nächsten Worts |
| Kein Faktenspeicher | Es gibt keine interne Datenbank zum Nachschlagen – nur gelernte Muster |
| Training belohnt Flüssigkeit | „Ich weiß es nicht" kommt in Trainingsdaten selten vor und wird kaum belohnt |
| Kein Meta-Wissen | Das Modell kann nicht unterscheiden zwischen „das weiß ich sicher" und „das klingt plausibel" |
| Trade-off | Zu starke Einschränkung macht das Modell extrem konservativ und für viele Aufgaben unbrauchbar |
Ein LLM funktioniert so:
Dieser Prozess unterscheidet nicht zwischen „Fakt wiedergeben" und „plausibel klingenden Unsinn erzeugen". Beides ist für das Modell einfach: das nächste wahrscheinliche Wort ausgeben.
Durch RLHF (Reinforcement Learning from Human Feedback) versucht man, das Modell zu „erziehen". Aber: