Immer dieselben Argumente dank KI, eine neue Studie verrät, woran das liegt

Immer dieselben Argumente dank KI, eine neue Studie verrät, woran das liegt

Fünf verschiedene Sprachmodelle, gebaut von fünf verschiedenen Firmen, bekommen dieselbe Streitfrage vorgelegt. Heraus kommt fünfmal fast dasselbe Argument. Genau das hat eine Forschergruppe der University of Maryland nachgemessen, und die Zahl dahinter ist deutlich. Bei menschlichen Autoren waren 65,3% der Hauptargumente einzigartig. Bei den Modellen 3,4%.

Die Studie heißt »Argument Collapse« und liegt seit dem 5. Juni 2026 als Preprint vor, also noch ohne Peer Review. Man sollte sie entsprechend vorsichtig lesen. Aber der Befund ist sauber gebaut und betrifft jeden, der eine KI bittet, einen Aufsatz, eine Erörterung oder eine Stellungnahme zu schreiben.

Was Argumentationskollaps bedeutet

Argumentationskollaps bezeichnet die Tendenz von Sprachmodellen, bei einer Streitfrage immer wieder auf dieselbe kleine Auswahl plausibler Argumente zurückzufallen, statt die Bandbreite abzudecken, die menschliche Autoren produzieren.

Die Forscher verglichen 1.039 menschliche Beiträge aus 195 Debatten der New York Times mit über 23.000 von KI erzeugten Aufsätzen. Fünf Modelle waren im Test, nämlich GPT, ChatGPT-Hersteller OpenAI sowie Claude, Gemini, DeepSeek und Minimax. Die Frage war simpel. Wenn Menschen und Maschinen dieselbe strittige Frage beantworten, decken die Maschinen dann die Vielfalt der menschlichen Antworten ab?

Tun sie nicht. Und zwar auf drei Ebenen.

Drei Ebenen, auf denen die Vielfalt verschwindet

Die erste Ebene ist das Hauptargument, also die zentrale These eines Textes. Hier ist der Abstand am größten. 65,3% einzigartige Argumente bei Menschen, 3,4% bei den Modellen. Die KI-Argumente überschneiden sich dabei fast immer mit etwas, das auch ein Mensch gesagt hat. 77% der Modell-Hauptargumente lagen innerhalb des menschlichen Spektrums. Das Problem ist nicht, dass die Maschine Falsches behauptet. Es ist, dass sie immer dasselbe Richtige behauptet.

Die zweite Ebene sind die Stützargumente, die Gründe also, mit denen eine These untermauert wird. Auch wenn Mensch und Maschine dieselbe These vertreten, entwickeln sie sie unterschiedlich. Bei den Stützargumenten waren 41% der menschlichen einzigartig, aber nur 9,1% der KI-Argumente. Die Modelle greifen zu allgemeinen, abgesicherten Begründungen. Menschen werden konkret, nennen den Einzelfall, das Beispiel, die eine Studie.

Die dritte Ebene ist der Aufbau. KI-Aufsätze folgen einem festeren Muster. Sie eröffnen mit einer These, schieben Belege nach und steuern schnell auf einen Vorschlag zu. Misst man, wie oft ein Beleg-Absatz direkt in einen Vorschlag-Absatz kippt, tun die Modelle das in den NYT-Texten mehr als doppelt so oft wie Menschen, 29,4 gegen 12,3% aller solchen Übergänge. Menschen bleiben länger beim Entwickeln, beim Abwägen, beim Ausführen.

KI Argumente im Vergleich – Anteil einzigartiger Haupt- und Stützargumente bei Mensch und KI

Auch die Bitte um Vielfalt hilft nur halb

Der naheliegende Einwand. Dann fordert man die KI eben ausdrücklich auf, vielfältig zu antworten. Genau das haben die Forscher getestet. Das Ergebnis ist zwiespältig.

Die Aufforderung erhöht die Vielfalt, aber sie holt die menschliche Bandbreite nicht zurück. Ein typisches Modell erreicht so etwa die Hälfte der unterschiedlichen menschlichen Hauptargumente. Und ein Teil der neu gewonnenen Vielfalt liegt außerhalb dessen, was Menschen je gesagt haben. Die Modelle erfinden dann Argumente, die in keinem menschlichen Text auftauchen. Das heißt nicht, dass sie falsch sind, eher ungeprüft und ungewöhnlich. Mehr Streuung, aber nicht unbedingt mehr Substanz.

Besonders zuverlässig findet die KI die breiten, naheliegenden Argumente. Argumente, die mehrere Menschen unabhängig genannt hatten, wurden zu 98,1% wiedergefunden. Die Einzelstimmen, die ein einzelner Mensch eingebracht hatte, nur zu 67,8%. Das Seltene, Schräge, Spezifische fällt zuerst durch das Raster.

Lässt du KI Argumente oder Aufsätze für dich schreiben?

Warum die KI ins Allgemeine flüchtet

Die Forscher bieten eine plausible Erklärung an, ohne sie zu beweisen. Das Training auf Hilfsbereitschaft und Unbedenklichkeit belohnt sichere, breit akzeptable Antworten. Eine allgemeine, schwer widerlegbare Aussage ist ungefährlicher als eine konkrete, angreifbare. Also tendiert das Modell zum abgesicherten Mittelweg.

Ein Beispiel aus der Studie. In einer Debatte über Amerikas Sauberkeitswahn produzierten alle fünf Modelle dieselbe vermittelnde These. Ja zur nötigen Hygiene, nein zum übertriebenen Sterilitätskult. Sauber abgewogen, gegen niemanden gerichtet, und fünfmal praktisch identisch. Die menschlichen Autoren brachten daneben ein halbes Dutzend anderer Thesen.

Was das fürs Lernen heißt

Hier wird es praktisch. Wer ChatGPT oder Claude einen Aufsatz schreiben lässt, bekommt das mittige Argument. Das abgesicherte. Das, das vermutlich auch beim Mitschüler steht, der dasselbe Werkzeug benutzt hat. Genau die Stelle, an der ein Text auffällt oder eine Note macht, nämlich das eigene, konkrete, am Beispiel festgemachte Argument, liefert die KI von sich aus eher nicht.

Das deckt sich mit dem, was hier schon länger steht. Wer die KI als Lernpartner statt als Antwortmaschine nutzt, lernt mehr. Und wer die erste Antwort hinterfragt, statt sie zu kopieren, kommt weiter. Die neue Studie liefert dafür jetzt eine Zahl. Die erste Antwort ist im Schnitt die generischste.

Für die eigene Arbeit folgt daraus kein Verbot, sondern eine Arbeitsteilung. Die KI taugt zum Sammeln des Naheliegenden, zum Strukturieren, zum schnellen Überblick. Das eigene Argument muss man selbst beisteuern. Wer die KI nach dem konkreten Einzelfall fragt, nach dem Gegenargument, nach der Position, die sonst niemand vertritt, holt mehr heraus. Das ist mehr Arbeit als »schreib mir einen Aufsatz über X«. Aber es ist der Unterschied zwischen einem Text, der nach allen klingt, und einem, der nach dir klingt.

Wo die Studie an ihre Grenzen kommt

Drei Einschränkungen, die man kennen sollte. Erstens misst die Studie Vielfalt, nicht Qualität. Einzigartiger heißt nicht besser. Ein seltenes menschliches Argument kann genauso gut Unsinn sein. Die Forscher schreiben das selbst in ihre Grenzen. Zweitens wurden die Modellgenerationen vom Frühjahr 2026 getestet. Ob neuere das Problem mildern, sagt die Studie nicht. Drittens stammt das Material aus öffentlichen Debattenforen, nicht aus Schulaufsätzen. Dass sich der Befund überträgt, ist plausibel, aber nicht bewiesen.

Welche Modellversionen getestet wurden
OpenAIGPT-5.5
GoogleGemini 3.1 Pro Preview
AnthropicClaude Opus 4.7
MinimaxM2.7
DeepSeekV4 Pro

Der Kern der Sache bleibt. Wenn alle dasselbe Werkzeug befragen und alle dieselbe Antwort erhaslten, verschwindet über dier Zeit die Bandbreite. Nicht weil die Antworten falsch wären, sondern weil sie sich gleichen. Die Studie liegt als Preprint auf arXiv zum Nachlesen bereit. (lk)

Sven Lennartz Avatar

Der Autor

Sven Edmund Lennartz ist seit 25 Jahren Fachautor und Gründer mehrerer Online-Unternehmen, wie Dr. Web (Webdesign), Conterest (Bloggen), Sternenvogelreisen (Sprache) und Smashing Magazine (Webdesign & Entwicklung). Autorenhomepage

Bist du bereit für mehr?

Was sagst du dazu?