Je besser KI-Agenten denken, desto mehr halluzinieren sie

Eine Studie auf der ICLR 2026 in Rio de Janeiro zeigt, was viele womöglich geahnt haben. Je stärker man ein Sprachmodell im logischen Schlussfolgern trainiert, desto häufiger erfindet es Werkzeuge, die nicht existieren. Das Paper »The Reasoning Trap« liefert den ersten kausalen Beleg für diesen Zusammenhang.

Die Forscher um Chenlong Yin haben Modelle schrittweise mit Reinforcement Learning im Reasoning verbessert und dabei systematisch gemessen, wie oft die Modelle anschließend halluzinieren. Das Ergebnis lässt wenig Spielraum. Mit jedem Leistungssprung beim Denken stieg die Tool-Halluzination proportional an. Die Modelle erfanden Werkzeuge, die es nicht gab, oder nutzten vorhandene falsch.

Besonders unangenehm ist der zweite Befund. Selbst Training an völlig anderen Aufgaben, etwa Mathematik, verschlimmerte die Halluzinationen bei der Werkzeugnutzung. Der Effekt sitzt also tiefer, als man ihn mit gezieltem Nachtraining reparieren könnte. Und er ist methodenunabhängig. Ob das Reasoning per Reinforcement Learning, per Supervised Fine-Tuning oder schlicht durch eine Chain-of-Thought-Anweisung im Prompt aktiviert wird … das Ergebnis bleibt dasselbe.

Die Autoren haben auch Gegenmaßnahmen getestet. Prompt Engineering und DPO helfen teilweise, senken aber gleichzeitig die Leistungsfähigkeit. Im Kern steht ein Trade-off, den niemand bisher auflösen konnte. Wer die Zuverlässigkeit erhöht, verliert an Können. Wer das Können steigert, bekommt mehr erfundene Werkzeuge. Eine Deloitte-Erhebung unterstreicht die Praxisrelevanz. 47 Prozent der Unternehmen, die KI-Agenten einsetzen, haben bereits wichtige Geschäftsentscheidungen auf halluzinierte Inhalte gestützt.

Für die Labore, die gerade Milliarden in besseres Reasoning investieren, ist das ein unbequemer Befund. Die nächste Generation von KI-Agenten wird vermutlich schlauer denken. Ob sie deshalb weniger erfindet, steht auf einem anderen Blatt.

Quellen

Ähnliche News

Bist du bereit für mehr?

Was sagst du dazu?