Warum erfinden Large Language Models manchmal Fakten, die nicht stimmen?
LLMs haben kein Weltwissen im menschlichen Sinn. Sie berechnen Wahrscheinlichkeiten für das nächste Wort. Wenn die statistische Verteilung zu einem Thema unsicher ist, erzeugen sie plausibel klingenden aber falschen Text – eine sogenannte Halluzination.
| Ursache | Erklärung |
|---|---|
| Kein Faktengedächtnis | LLMs speichern keine Datenbank – sie lernen statistische Muster aus Text |
| Lücken in Trainingsdaten | Zu seltenen Themen gibt es wenig Signal, das Modell „rät" |
| Überverallgemeinerung | Muster aus häufigen Kontexten werden auf unpassende Fälle übertragen |
| Kein „Ich weiß nicht" | Das Modell ist darauf trainiert, immer eine Antwort zu geben |
| Veraltetes Wissen | Trainingsdaten haben einen Stichtag – neuere Fakten fehlen |
| Lange Kontexte | Bei sehr langen Gesprächen kann das Modell den Überblick verlieren |
Frage: „Wer hat das Buch Die Stille der Lämmer geschrieben?"
Ein LLM könnte antworten: „Thomas Harris, erschienen 1988" – korrekt.
Aber bei einer obskuren Frage wie „Wer war der dritte Bürgermeister von Kleinkleckersdorf?" erfindet es möglicherweise einen Namen, der plausibel klingt, aber nie existiert hat.
Halluzinationen sind eines der größten offenen Probleme in der LLM-Forschung. Aktive Bereiche: