Je länger der Chat, desto dümmer die KI

Je länger das Gespräch, desto dümmer die KI

Je länger das Gespräch mit einer KI dauert, desto schlechter werden die Antworten. Das ist nicht nur ein Gefühl, es ist tatsächlich real und messbar.

Die erste Antwort sitzt meistens. Die zweite auch noch. Aber nach sechs, acht, zehn Nachrichten schleichen sich Widersprüche ein. Details stimmen nicht mehr überein. Die KI wiederholt sich, ignoriert Korrekturen, hält an Behauptungen fest, die längst widerlegt sind.

Bauchgefühl? Nein, es gibt Zahlen.

Eine Studie von Microsoft Research und Salesforce hat über 200.000 simulierte Gespräche mit 15 verschiedenen Sprachmodellen ausgewertet – von kleinen Open-Source-Modellen bis zu den besten verfügbaren Systemen. Das Ergebnis: Im Durchschnitt sinkt die Leistung um 39 Prozent, sobald eine Aufgabe nicht in einer einzigen Nachricht erledigt wird, sondern sich über mehrere Nachrichten erstreckt (Mai 2025). Der Leistungsabfall betrifft ausnahmslos alle getesteten Modelle.

Das ist keine Randnotiz. Es betrifft die Art, wie die meisten Menschen KI tatsächlich benutzen.

Warum ist die erste Antwort die beste?

Die Forscher haben eine elegante Methode gewählt. Sie nahmen Aufgaben, die normalerweise in einer einzigen Nachricht gestellt werden – Code schreiben, Daten zusammenfassen, Matheprobleme lösen – und zerlegten die Anweisungen in mehrere Teile. Statt alles auf einmal zu sagen, bekam die KI die Informationen häppchenweise. Wie in einem normalen Gespräch.

Das Resultat: Bekam ein Modell alle Informationen auf einmal, lag die durchschnittliche Leistung bei 90 Prozent. Wurde dieselbe Aufgabe über mehrere Nachrichten verteilt, sank sie auf 65 Prozent. Und das passierte bereits ab der zweiten Nachricht.

Um das in den Alltag zu übersetzen: Wenn du ChatGPT bittest, einen Text zu schreiben, und danach in einer zweiten Nachricht sagst, er solle kürzer sein und bitte ohne Aufzählungen – dann ist das Ergebnis im Schnitt deutlich schlechter, als wenn du alles gleich in der ersten Nachricht gesagt hättest. Nicht immer. Aber statistisch belastbar.

KI verliert den Faden – und das ist nicht deine Schuld

Die naheliegende Erklärung wäre: Die KI vergisst, was vorher gesagt wurde. Aber so einfach ist es nicht. Das Kontextfenster moderner Modelle ist groß genug, um lange Gespräche zu halten. Der technische Speicher ist nicht das Problem.

Das eigentliche Problem ist ein anderes: Die KI verrennt sich. Sie trifft früh im Gespräch Annahmen – oft schon bei der ersten Nachricht, wenn die Aufgabe noch gar nicht vollständig beschrieben ist. Auf diesen Annahmen baut sie auf. Und wenn sich herausstellt, dass sie falsch lagen, korrigiert sie sich nicht sauber. Stattdessen versucht sie, die neuen Informationen irgendwie in ihren bestehenden Lösungsversuch zu integrieren.

Je länger das Gespräch – Diagramm zeigt Leistungsabfall der KI von 90 auf 55 Prozent mit steigender Nachrichtenzahl

Du bittest die KI um eine Reiseplanung für Italien. Sie legt sofort mit Rom los, obwohl du noch gar nicht gesagt hast, wohin genau. Zwei Nachrichten später sagst du: Eigentlich Sardinien. Die KI passt die Route oberflächlich an, aber das halbe Programm besteht immer noch aus Vorschlägen, die für Rom gedacht waren. An der Küste taucht plötzlich ein vatikanisches Museum auf.

Die Forscher nennen das premature answer attempts: Die KI liefert eine Lösung, bevor sie genug weiß. Und dann klebt sie an dieser Lösung.

Wie ein Schüler, der sofort loslegt

Man kann sich das vorstellen wie einen sehr begabten Prüfling, der jede einzelne Frage hervorragend beantwortet – solange sie für sich steht. Aber sobald die Fragen aufeinander aufbauen, verliert er den roten Faden. Er erinnert sich an seine erste Antwort, nicht an die Korrektur danach. Er liest die neue Aufgabe, aber er liest sie durch die Brille dessen, was er vorher schon geschrieben hat.

Genau das passiert in langen KI-Gesprächen. Die Studie unterscheidet zwei Arten von Leistungseinbußen: den Verlust an Können und den Verlust an Zuverlässigkeit. Beim Können ist der Rückgang moderat. Die KI wird nicht dümmer. Aber sie wird dramatisch unzuverlässiger. Im besten Fall funktioniert ein langes Gespräch gut. Im schlechtesten Fall produziert dasselbe Modell bei derselben Aufgabe Unsinn – je nachdem, in welcher Reihenfolge die Informationen ankommen.

Wenn die KI einen falschen Weg einschlägt, findet sie nicht mehr zurück.

Hilft Nachfragen oder schadet es?

Das widerspricht dem, was man überall liest. In jedem Ratgeber steht: Frag nach. Präzisiere. Iteriere. Gute Fragen bringen bessere Antworten. Das stimmt auch – aber nicht so pauschal, wie es klingt.

Die Studie zeigt, dass Mehrstufigkeit die Leistung senken kann. Nicht immer, aber in vielen Fällen. Der Grund liegt in der Architektur der Modelle: Mit jeder Nachricht wächst die Menge an Text, die das Modell verarbeiten muss. Das allein wäre kein Problem. Aber die KI gewichtet ihre eigenen vorherigen Antworten stark – oft stärker als die neuen Anweisungen des Nutzers. Die Forscher beobachteten außerdem, dass Modelle übermäßig ausführliche Antworten geben, was den Gesprächsverlauf weiter belastet. Die KI antwortet nicht nur falsch, sie antwortet auch zu viel.

Wenn deine Aufgabe komplex ist, formuliere sie lieber einmal vollständig, statt sie schrittweise zu entwickeln. Ein einziger, gut durchdachter Prompt schlägt fünf Nachrichten, in denen du die KI nach und nach in die richtige Richtung schiebst. Das klingt kontraintuitiv, weil wir von menschlichen Gesprächen gewohnt sind, dass Nachfragen hilft. Bei KI ist es anders.

Was passiert wirklich im Gespräch mit der KI?

Sprachmodelle simulieren Gespräche überzeugend. Die Antworten kommen in natürlicher Sprache, sie beziehen sich auf das vorher Gesagte, sie wirken aufmerksam. Das verleitet zu einer Annahme, die falsch ist: dass man es mit einem Gegenüber zu tun hat, das zuhört, mitdenkt, umlernt.

Tatsächlich passiert etwas anderes. Die KI verarbeitet bei jeder Nachricht den gesamten bisherigen Gesprächsverlauf – ihre eigenen Antworten eingeschlossen. Sie liest gewissermaßen jedes Mal das ganze Gespräch von vorn, aber sie liest es nicht wie ein Mensch, der dazulernt. Sie liest es wie jemand, der die eigene Meinung bestätigt sehen will. Das ist kein böser Wille und kein Design-Fehler. Es ist eine Folge der Art, wie diese Modelle trainiert werden.

Die KI hört zu – aber sie lernt im Gespräch weniger, als wir glauben.

Was du konkret besser machen kannst

Die Studie liefert nicht nur Diagnosen, sondern auch praktische Empfehlungen. Zwei davon sind sofort umsetzbar.

Wenn ein Gespräch in die falsche Richtung läuft, starte neu. Kein Reparieren, kein Nachbessern, kein Drehen an Formulierungen innerhalb desselben Chats. Öffne ein neues Gespräch und formuliere deine Anfrage von Grund auf. Die Wahrscheinlichkeit, ein gutes Ergebnis zu bekommen, steigt messbar.

Fasse zusammen, bevor du neu startest. Nimm die brauchbaren Teile aus dem bisherigen Gespräch, formuliere daraus eine vollständige Anweisung und gib sie in einem neuen Chat ein. Die Forscher nennen das Consolidate before retrying. Es kombiniert das Beste aus beiden Welten: was du im Gespräch gelernt hast, plus die Stärke des frischen Starts.

Wer Prompt Engineering ernst nimmt, sollte diesen Punkt verinnerlichen: Die beste Nachricht an eine KI ist die erste. Alles danach kann helfen – muss aber nicht.

Was heißt das für den Alltag mit KI?

Die Ergebnisse sind kein Argument gegen KI. Sie sind ein Argument gegen Illusionen. Sprachmodelle sind für einzelne, klar formulierte Aufgaben beeindruckend leistungsfähig. Aber als Gesprächspartner, die über viele Runden hinweg mitdenken, Korrekturen aufnehmen und konsistent bleiben? Da sind sie noch nicht angekommen.

KI-Halluzinationen sind ein bekanntes Problem, aber das Sich-Verrennen in langen Gesprächen ist bisher kaum diskutiert worden. Dabei trifft es mehr Menschen, weil es genau dort passiert, wo KI am natürlichsten wirkt: im Dialog.

Die Modelle werden besser werden. Aber bis dahin hilft es, zu wissen, wo die Grenzen liegen. Nicht um die KI zu meiden, sondern um sie klüger einzusetzen. Kurze Gespräche, vollständige Anweisungen, frische Starts bei Problemen. Das klingt nicht nach dem Zukunftsversprechen, das uns die Werbung malt. Dafür funktioniert es.

Quellen und Daten

Philippe Laban, Hiroaki Hayashi, Yingbo Zhou, Jennifer Neville: LLMs Get Lost In Multi-Turn Conversation. Microsoft Research / Salesforce Research, Mai 2025. arxiv.org/abs/2505.06120

Sven Lennartz Avatar

Der Autor

Sven Edmund Lennartz ist seit 25 Jahren Fachautor und Gründer mehrerer Online-Unternehmen, wie Dr. Web (Webdesign), Conterest (Bloggen), Sternenvogelreisen (Sprache) und Smashing Magazine (Webdesign & Entwicklung). Autorenhomepage

Bist du bereit für mehr?