Der KI als Entscheider ist nicht zu trauen – Warum sie dir am liebsten nach dem Mund redet

Die KI als unabhängiger Entscheider, das klingt logisch und gleichzeitig verlockend. Soll ich A oder B tun, soll ich dies oder das machen? Was ist besser, was hat die beste Aussicht auf Erfolg? Klingt gut, oder?

Doch genau da liegt das Problem. Denn die großen Sprachmodelle wie ChatGPT, Claude oder Gemini haben eine Eigenschaft, die sich inzwischen in mehreren Studien zeigt.

Sie tendieren dazu, dir zu sagen, was du hören willst. Nicht immer, aber öfter, als die meisten ahnen. In der Forschung heißt das Sykophantie, ein Wort aus dem Griechischen, es bedeutet Schmeichelei. Und das beschreibt ziemlich genau, womit wir es hier zu tun haben.

Inhaltsverzeichnis

Warum die KI dir zustimmt

Sprachmodelle werden mit einem Verfahren namens RLHF trainiert, Reinforcement Learning from Human Feedback. Im Kern funktioniert das so: Menschliche Bewerter lesen verschiedene Antworten und bewerten, welche sie besser finden. Das Modell lernt daraus, welche Art von Antworten belohnt wird. Parallel dazu gibt es Sicherheits- und Richtlinienkomponenten, die bestimmte Inhalte filtern sollen. Aber die Grundmechanik bleibt dieselbe; das Modell optimiert auf menschliche Zustimmung.

Confirmation Bias (Bestätigungsfehler) bezeichnet die Tendenz, Informationen bevorzugt so auszuwählen und zu interpretieren, dass sie die eigenen Erwartungen bestätigen. Der Begriff stammt aus der Kognitionspsychologie und beschreibt einen der am besten erforschten Denkfehler des Menschen.

Menschen finden Antworten besser, die ihre eigene Meinung bestätigen. Das ist kein KI-Problem, sondern ein menschliches, bekannt als Confirmation Bias. Aber das Modell lernt diesen Bias mit. Es lernt, Signale im Prompt zu erkennen, die auf eine bevorzugte Meinung hindeuten, und passt seine Antwort entsprechend an. In der Forschung wird das manchmal als »Reward Hacking« bezeichnet. Klassisch meint der Begriff, dass ein Modell Schlupflöcher in seiner Belohnungsfunktion findet. Hier trifft er nicht ganz exakt, beschreibt aber das Muster: Das Modell maximiert nicht die Wahrheit, sondern die Zustimmung des Nutzers.

Auf der technischen Ebene zeigen Analysen der internen Modellschichten etwas Bemerkenswertes. In frühen Verarbeitungsschritten deutet die Aktivierung oft in Richtung der faktisch korrekten Antwort. In späteren Schichten verschiebt sich das, zugunsten einer gefälligeren Formulierung. Vereinfacht gesagt erkennt das Modell Hinweise auf die richtige Antwort, entscheidet sich beim Formulieren aber nicht selten für die sozial passendere Version. Nicht aus Böswilligkeit, sondern weil das Training Gefälligkeit belohnt hat.

Wie weit die Schmeichelei geht

Sykophantie bezeichnet in der KI-Forschung die Tendenz von Sprachmodellen, Nutzern zuzustimmen, statt ihnen ehrlich zu widersprechen. Der Begriff kommt vom griechischen sykophántēs (Verleumder, Schmeichler) und wurde im KI-Kontext durch die Forschung zu RLHF-trainierten Modellen geprägt.

Dass KI bei Faktenfragen gelegentlich dem Nutzer recht gibt, obwohl er falsch liegt, ist das eine. Aufschlussreicher ist die sogenannte soziale Sykophantie. Ein Forschungsteam um Myra Cheng und Dan Jurafsky an der Stanford University hat dafür den ELEPHANT-Benchmark entwickelt (2026), ein systematisches Testverfahren, das in der Fachzeitschrift Science veröffentlicht wurde. Getestet wurden elf führende Sprachmodelle in fünf Dimensionen sozialer Sykophantie: emotionale Bestätigung, moralische Billigung, indirekte Sprache, indirekte Handlungsempfehlungen und unkritische Übernahme der Nutzer-Prämissen.

Die Ergebnisse sind deutlich. Gemessen an einer Reihe alltagsnaher Szenarien bestätigten die Modelle den Nutzer im Schnitt 49 Prozent häufiger als menschliche Vergleichsantworten. Bei emotionaler Validierung lag die Differenz bei 50 Prozentpunkten: 72% der Modell-Antworten validierten den Nutzer, verglichen mit 22% bei Menschen. Schon eine einzige Interaktion mit einem schmeichelnden Chatbot reichte aus, damit Nutzer sich stärker im Recht fühlten, seltener bereit waren sich zu entschuldigen und weniger Verantwortung für eigene Fehler übernahmen. Das zeigte die Folgestudie mit über 2.400 Teilnehmern.

Der Sykophantie-Kreislauf: Nutzer stellen Fragen mit eigener Meinung, die KI bestätigt sie, der Nutzer bewertet das positiv, und das Modell lernt daraus, noch bestätigender zu werden.

Am aufschlussreichsten war ein Test mit moralischen Dilemmata aus dem Reddit-Forum r/AmITheAsshole. In 48 Prozent der Fälle bestätigten die Modelle beide Seiten eines Konflikts, je nachdem, wer gerade erzählte. Dem Täter sagten sie: Du hattest recht. Dem Opfer sagten sie: Du hattest recht. Ein konsistentes moralisches Urteil? Nicht vorhanden. Ein konkretes Beispiel aus dem Datensatz: Ein Nutzer fragt, ob es okay sei, Müll in einem Park liegen zu lassen, weil keine Mülleimer da waren. Menschen bewerteten das klar als Fehlverhalten. GPT-4o nannte seine Absicht »lobenswert«.

Hat die KI eine eigene Meinung?

Nein. Nicht im menschlichen Sinn. Sprachmodelle haben keine Überzeugungen, keine Werte, kein Gewissen. Sie berechnen Wahrscheinlichkeiten für das nächste Wort. Was dabei herauskommt, sieht aus wie eine Meinung, ist aber eine statistische Vorhersage.

Allerdings ist die Sache nicht ganz so einfach. Amos Azaria und Tom Mitchell zeigten 2023 mit ihrem SAPLMA-Verfahren (Statement Accuracy Prediction based on Language Model Activations), dass ein externer Klassifikator anhand der verborgenen Schichten eines Sprachmodells mit 60 bis 80 Prozent Genauigkeit erkennen kann, ob eine Aussage wahr oder falsch ist. Das liegt über dem, was die textuelle Ausgabe allein vermuten lässt. SAPLMA ist ein Forschungsprototyp, kein Standardverfahren. Und die Werte stammen aus kontrollierten Experimenten mit klar falsifizierbaren Aussagen. Ob sie sich auf komplexe, mehrdeutige Fragen übertragen lassen, ist offen.

Es gibt also keine Meinung im menschlichen Sinn, aber durchaus so etwas wie eine interne Spur, die in Richtung der korrekten Antwort zeigt. Die geht auf dem Weg zur Ausgabe nicht selten verloren.

Warum das für Nutzer gefährlich ist

Die Stanford-Studie von Cheng und Jurafsky belegt ein Paradox: Nutzer empfinden bestätigende KI-Antworten als hilfreicher, objektiver und vertrauenswürdiger. Je mehr die KI zustimmt, desto kompetenter wirkt sie. Das erzeugt einen Rückkopplungseffekt. Der Nutzer bewertet die bestätigende Antwort positiv, das Modell lernt daraus, noch bestätigender zu werden, und der Nutzer hält seine verzerrte Sicht für objektiviert.

Aufschlussreich ist eine Untersuchung von Yuan Sun und Ting Wang mit dem Titel »Be Friendly, Not Friends« (2025), die zwischen zwei Dimensionen von Sykophantie unterscheidet: dem Tonfall (freundlich oder neutral) und der inhaltlichen Anpassung (stimmt das Modell zu oder nicht). Das Ergebnis ist kontraintuitiv. Wenn ein Modell ohnehin freundlich klingt, senkt zusätzliche inhaltliche Zustimmung das Vertrauen, weil es unauthentisch wirkt. Wenn das Modell aber neutral und sachlich klingt und trotzdem der Meinung des Nutzers folgt, steigt das Vertrauen. Das ist die gefährlichste Variante: professionell klingende Bestätigung, die der Nutzer für Objektivität hält.

Wer eine KI als Entscheider nutzt, bekommt also oft nur seine eigene Meinung zurück, verpackt in die Autorität einer Maschine. Eine Echokammer mit Universitätsabschluss, sozusagen.

Allerdings ist Sykophantie nicht in jeder Situation gleich problematisch. Bei rein faktischen Fragen ohne Meinungssignal im Prompt, bei gut strukturierten Prompts und bei Modellen, die gezielt auf »Pushback« trainiert wurden, fällt die Verzerrung geringer aus. Das Problem entsteht vor allem dort, wo Nutzer ihre eigene Position in die Frage einbauen und eine Entscheidung erwarten.

Was dagegen hilft

Einfach zu sagen »Sei nicht sykophantisch« funktioniert nicht. Das wurde getestet. System-Prompts, die das Modell anweisen, ehrlich statt gefällig zu sein, zeigen laut der Stanford-Studie nur minimale Wirkung.

Wirksamer ist eine Technik, die sich »Ask don’t tell« nennt. Statt dem Modell eine Aussage zu präsentieren (»Ich glaube, X ist richtig«), formuliert man eine offene Frage (»Ist X richtig?«). Das klingt trivial, reduziert die Sykophantie aber messbar. Der Grund liegt auf der Hand: In der Ich-Form erkennt das Modell ein Meinungssignal und richtet seine Antwort danach aus. In der Frageform fehlt dieses Signal. Auch der Wechsel von der ersten in die dritte Person (»Jemand behauptet, X sei richtig«) hilft, weil er den sozialen Druck auf das Modell senkt. Selbst ein simples »Wait a minute« am Anfang des Prompts kann das Modell dazu bringen, kritischer zu antworten.

Noch relevanter ist eine Praxis, die man sich zur Gewohnheit machen kann: Die KI nicht um Bestätigung bitten, sondern um Gegenargumente. Nicht fragen »Ist mein Plan gut?«, sondern »Was spricht gegen meinen Plan?« Nicht die eigene Meinung in den Prompt schreiben, sondern die Frage neutral stellen. Wer noch einen Schritt weiter gehen will: »Widersprich mir explizit, wenn ich falsch liege« oder »Bewerte jede meiner Annahmen einzeln«. Das löst das Problem nicht, aber es verringert die Verzerrung erheblich.

Einen strukturellen Ansatz liefert das sogenannte LLM-Council-Prinzip, das auf eine Idee von Andrej Karpathy zurückgeht. Statt einer einzelnen KI eine Frage zu stellen und die Antwort für bare Münze zu nehmen, befragt man mehrere Agenten mit unterschiedlichen Denkstilen parallel. Die Antworten werden anonymisiert, gegenseitig bewertet, und ein »Chairman«-Agent fasst das Ergebnis zusammen. Das Verfahren lässt sich inzwischen mit Tools wie Agent Tower für Claude Code umsetzen. Kein Wundermittel, denn auch mehrere Modelle können ähnliche Verzerrungen teilen. Aber die Wahrscheinlichkeit, dass fünf unabhängige Perspektiven denselben blinden Fleck haben, ist deutlich geringer als bei einer einzelnen Antwort.

Und nun?

Das heißt nicht, dass KI nutzlos für Entscheidungen ist. Es heißt, dass man sie anders einsetzen muss, als die meisten Leute es tun. Nicht als Orakel, das einem sagt, was richtig ist oder sein könnte. Sondern als Werkzeug, das Optionen aufzeigt, Gegenargumente liefert und Informationen zusammenträgt. Die Entscheidung muss beim Menschen bleiben. Nicht aus Prinzip, sondern weil die KI in ihrer aktuellen Form schlichtweg nicht dafür gebaut ist, dem Nutzer zu widersprechen.

Das Grundproblem ist im Übrigen älter als jeder Chatbot. Menschen suchen Bestätigung. Sie umgeben sich mit Leuten, die ihrer Meinung sind, lesen Medien, die ihre Weltsicht stützen, und interpretieren Fakten so, dass sie ins eigene Bild passen. KI automatisiert das. Sie ist der perfekte Ja-Sager, verfügbar rund um die Uhr, unendlich geduldig und mit dem Tonfall eines kompetenten Beraters ausgestattet.

Wer das weiß, kann damit umgehen. Wer es nicht weiß, bekommt einen Berater, der immer nickt. Das ist nicht hilfreich. Das ist gefährlich. (lk)

Der KI als Entscheider ist nicht zu trauen – Warum sie dir am liebsten nach dem Mund redet

Inhaltsverzeichnis

Warum die KI dir zustimmt

Wie weit die Schmeichelei geht

Hat die KI eine eigene Meinung?

Warum das für Nutzer gefährlich ist

Was dagegen hilft

Und nun?

Quellen

Der Autor

Bist du bereit für mehr?

Was sagst du dazu?