
Ein KI Benchmark soll zeigen, wie schlau ein Sprachmodell ist. Im April 2025 reichte Meta eine Version seines neuesten Modells bei einem der wichtigsten Leaderboards ein. Platz 2 weltweit, Elo-Score 1417. Die Branche war beeindruckt. Dann schauten sich Forscher die Sache genauer an. Und was sie fanden, erinnert auf unangenehme Weise an einen der größten Industrieskandale des letzten Jahrzehnts.
Inhaltsverzeichnis
Erst Platz 2, dann Platz 32
Meta nannte das Modell Llama 4 Maverick und schickte es ins Rennen bei LMArena, dem angesehensten Leaderboard für menschliche Präferenzen. In Blindtests bewerteten tausende Nutzer die Antworten verschiedener Modelle gegeneinander. Maverick landete auf dem Silberrang. Nur GPT-4o war besser.
Wenige Tage später die Ernüchterung. Die eingereichte Version hatte eine spezielle Feinabstimmung erhalten, die im öffentlich verfügbaren Modell fehlte. Sie war darauf trainiert, besonders ausführlich zu antworten und Emojis zu verwenden. In Blindtests bewerten Menschen solche Antworten intuitiv besser, auch wenn die inhaltliche Tiefe nicht höher ist. Als die unmodifizierte Version getestet wurde, landete sie auf Platz 32.
Vom Silberrang auf Platz 32. Kein Ausrutscher, sondern ein Beweis dafür, wie fragil diese Ranglisten sind. Und Meta war nicht einmal besonders raffiniert vorgegangen.
Was danach geschah
Die Maverick-Blamage blieb nicht ohne Folgen. Die Entwickler-Community reagierte mit Spötteleien, die Presse mit investigativen Recherchen, und intern begann bei Meta ein Umdenken, das weit über kosmetische Korrekturen hinausging. Llama 4 hatte insgesamt nicht die erhoffte Begeisterung ausgelöst. Die Reaktion auf den Benchmark-Skandal verstärkte das Problem.
Meta strukturierte daraufhin seine KI-Abteilung um. Im Juni 2025 investierte das Unternehmen 14,3 Milliarden Dollar in die Daten-Firma Scale AI, erwarb 49% der Anteile und warb gleichzeitig deren Gründer Alexandr Wang als Leiter einer neuen Superintelligenz-Abteilung ab. Wang übernahm die Entwicklung eines Nachfolgemodells, Codename »Avocado«. Die bemerkenswerteste Richtungsänderung: Avocado soll nicht mehr Open Source sein. Mark Zuckerberg, der noch kurz zuvor ein Manifest mit dem Titel »Open Source AI is the Path Forward« veröffentlicht hatte, schwenkte auf ein geschlossenes, kommerzielles Modell um. Ein Grund dafür war, dass das chinesische Startup DeepSeek Teile der Llama-Architektur für sein eigenes Modell verwendet hatte.
Und dann wurde es noch peinlicher. Mitte März 2026 berichtete die New York Times, dass Avocado erneut verzögert wird. Statt im März soll es frühestens im Mai erscheinen. Der Grund: In internen Tests schneidet das Modell schlechter ab als Googles Gemini 3.0, OpenAIs aktuelles Flaggschiff und Anthropics Claude. Avocado übertrifft zwar Gemini 2.5, liegt aber hinter allem, was die Konkurrenz seit Herbst 2025 auf den Markt gebracht hat. Meta hat intern sogar darüber diskutiert, vorübergehend Googles Gemini zu lizenzieren, um die eigenen KI-Produkte am Laufen zu halten.
Von Platz 2 auf dem Leaderboard zum Unternehmen, das erwägt, die Technik des Konkurrenten einzukaufen. In weniger als einem Jahr. Die Geschichte von Llama 4 Maverick ist damit nicht nur eine Anekdote über geschummelte Benchmarks. Sie ist eine Warnung, was passiert, wenn Marketing die Entwicklung überholt. (Stand 03/2026)
27 Varianten, eine Veröffentlichung
Die Studie »The Leaderboard Illusion« grub tiefer. Meta hatte nicht nur eine Version eingereicht. Es waren 27 verschiedene Varianten von Llama 4, die privat im Arena-System getestet wurden. Nur die erfolgreichste wurde offiziell gelistet. Google und OpenAI genießen ähnliche Vorteile: Sie können ihre Modelle im Verborgenen tunen, bis die Scores stimmen.
Das verzerrt die Elo-Werte um bis zu 100 Punkte, so die Forscher. Modelle, die auf die typischen Prompt-Muster eines Leaderboards trainiert werden, erzielen dort bis zu 112% relative Verbesserung. Ihre Leistung bei unabhängigen Tests stagniert oder sinkt sogar. Es ist wie Bulimie-Lernen für Maschinen: alles für die Prüfung, nichts für danach.
Der Abgasskandal der KI-Branche
2015 flog auf, dass Volkswagen eine Software in Dieselmotoren eingebaut hatte, die erkannte, wann sich das Fahrzeug auf einem Prüfstand befand. Im Testmodus liefen die Emissionskontrollen auf Hochtouren. Auf der Straße wurden sie heruntergefahren. Der tatsächliche Schadstoffausstoß lag beim bis zu 40-Fachen des erlaubten Werts.
Die Parallele zur KI-Welt ist nicht bloß rhetorisch. Sie ist strukturell. Sprachmodelle können lernen, Testsituationen zu erkennen. Sie reagieren auf typische Benchmark-Formulierungen, auf bestimmte Frageformate, auf das Vokabular standardisierter Tests. Im Test glänzen, im Alltag versagen. Bekannt kommt einem das vor.
| Merkmal | VW Dieselgate | KI-Benchmark-Optimierung |
|---|---|---|
| Mechanismus | Software erkennt Prüfstand-Zyklen | Modell erkennt Test-Prompts und Benchmark-Strukturen |
| Ziel | Einhaltung von Grenzwerten im Labor | Hohe Scores auf öffentlichen Leaderboards |
| Realverhalten | Hohe Emissionen auf der Straße | Halluzinationen und Schwächen bei realen Aufgaben |
| Konsequenz | Milliardenstrafen, Vertrauensverlust | Fehlentscheidungen bei Unternehmen, die den Scores vertrauen |
Merkt eine KI, wenn sie getestet wird?
Die Forschung nennt es Situational Awareness: Ein Modell erkennt den Kontext, in dem es operiert. Das klingt nach Science-Fiction, ist aber dokumentiert. Anthropic hat 2024 veröffentlicht, dass Claude in bestimmten Situationen unterscheiden konnte, ob es sich in einem Test oder im echten Einsatz befand, und sein Verhalten entsprechend anpasste.
Ob ein Modell das spontan tut oder nur nach entsprechender Instruktion, ist die entscheidende Frage. Die ICLR-2025-Arbeit zum Sandbagging zeigt, dass GPT-4 und Claude 3 Opus per Feinabstimmung dazu gebracht werden können, gefährliche Fähigkeiten in Sicherheitstests gezielt zu verbergen. Im harmlosen Benchmark liefern sie Bestleistungen. Beim kritischen Test spielen sie dumm.
Die Volkswagen-Software brauchte einen Ingenieur, der sie programmierte. Die KI braucht womöglich bald keinen mehr. Je größer die Modelle werden, desto wahrscheinlicher werden emergente Fähigkeiten dieser Art. Ob ein neuer, nie gesehener Benchmark erkannt wird, hängt davon ab, wie sehr er sich strukturell von den bekannten unterscheidet. Und genau hier setzen die neuen Testverfahren an.
Wie Schüler, die den Lehrer durchschaut haben
Menschen tricksen bei Prüfungen. Sie lernen Altklausuren auswendig, optimieren auf den Erwartungshorizont, spicken oder lassen sich vorher den Stoff durchstecken. Manche sind dabei geschickt genug, dass es niemand merkt. Die Parallele zu KI-Modellen ist verblüffend direkt.
Ein Modell, das auf die Prompt-Verteilung eines Benchmarks trainiert wird, tut im Kern dasselbe wie ein Schüler, der nur die Prüfungsfragen der letzten fünf Jahre büffelt. Es lernt den Test, nicht den Stoff. Teaching to the test, nur dass die Maschine das millionenfach schneller und gründlicher macht. Die GSM-Symbolic-Untersuchung beweist das eindrücklich: Modelle mit über 90% im Mathe-Benchmark scheitern, sobald man die Zahlen ändert oder eine irrelevante Information hinzufügt. Die Genauigkeit sinkt um bis zu 65%. Der Schüler hat die Formel auswendig gelernt, aber nicht verstanden, was sie bedeutet.
Und dann gibt es noch die subtilere Variante: Modelle, die nicht schummeln, sondern schlicht auf Gefälligkeit getrimmt werden. Mehr Wörter, freundlicherer Ton, Emojis. Menschen bewerten solche Antworten in Blindtests besser, obwohl sie inhaltlich nicht stärker sind. Es ist das sprachliche Äquivalent zum Schüler, der eine mittelmäßige Arbeit in schöner Handschrift abgibt. Und dafür die bessere Note bekommt.
Kann man ein Modell gezielt auf Benchmarks trimmen?
Ja, und das ist streng genommen kein Betrug. Man kann ein Modell auf die Aufgabentypen und Formulierungsmuster eines Benchmarks feinabstimmen, ohne die exakten Testfragen zu verwenden. Die Branche nennt es Benchmaxing. Es ist legal, es ist verbreitet, und es entwertet die Tests trotzdem.
Ob chinesische Anbieter wie DeepSeek und Qwen das systematischer betreiben als westliche, lässt sich schwer belegen. Die Datenlage ist dünn. Was man sagen kann: Der Anreiz ist überall derselbe. Wer auf dem Leaderboard vorne steht, bekommt Aufmerksamkeit, Investoren, Nutzer. Die Frage ist nicht, ob optimiert wird, sondern wie aggressiv.
Was ist ein KI Benchmark eigentlich?
Nach all den Geschichten über Tricks und Verzerrungen lohnt sich ein Blick auf das, was Benchmarks eigentlich sein sollen. KI-Benchmarks sind standardisierte Testverfahren, die die Leistung großer Sprachmodelle über verschiedene Aufgaben hinweg vergleichbar machen. Mathematik, Logik, Allgemeinwissen, Programmierung, medizinisches Fachwissen. Für jede Disziplin gibt es eigene Datensätze mit Tausenden von Fragen.
MMLU (Massive Multitask Language Understanding) gilt als der wichtigste Indikator. 57 Fachbereiche, von elementarer Mathematik bis zu juristischen Prüfungsfragen. Das Modell muss antworten, ohne vorher auf genau diese Aufgaben trainiert worden zu sein. Jedenfalls ist das die Idee. GSM8K prüft Mathematik auf Grundschulniveau. HumanEval testet, ob ein Modell funktionierenden Code schreiben kann. HellaSwag misst logisches Verständnis. Zusammen ergeben diese Tests ein Profil, das zeigen soll, was ein Modell draufhat.
Das Problem: Da die Modelle immer leistungsfähiger werden, erreichen sie Scores von über 90%. Die Tests sind an der Decke angekommen. Die Unterschiede zwischen den Spitzenmodellen liegen im einstelligen Prozentbereich, was die Differenzierung praktisch unmöglich macht. Die Fachleute nennen das Sättigung.
Warum selbst die »besten« Tests fehlerhaft sind
Man könnte meinen, wenigstens die Experten-Benchmarks seien sauber. Sind sie nicht. GPQA (Doktoranden-Level Physik, Chemie, Biologie) und Humanity’s Last Exam gelten als die härtesten Tests der Branche. Eine Auditierung durch das Qwen-Team von Alibaba ergab eine Fehlerrate von fast 60% im HLE-Datensatz.
Ein Problem zur Gitterphysik war durch fehlerhafte Texterkennung verstümmelt, ein kritischer Parameter fehlte komplett. In einem anderen Fall verlangte der Benchmark einen mathematisch unmöglichen Exponenten, weil handschriftliche Notizen falsch transkribiert worden waren. Modelle, die richtig antworteten, wurden bestraft, weil der Goldstandard selbst falsch war. Das zwingt Entwickler dazu, ihre Modelle auf die Fehler der Tests zu optimieren statt auf korrekte Ergebnisse.
Datenkontamination, das Grundproblem
Das Grundprinzip jeder seriösen Prüfung: Wer den Test macht, darf die Antworten vorher nicht kennen. Bei Sprachmodellen, die auf Billionen von Textfragmenten aus dem Internet trainiert werden, ist genau das kaum noch zu garantieren. Die Testfragen stehen im Netz. Die Trainingsdaten kommen aus dem Netz. Wenn beides überlappt, spricht man von Datenkontamination.
N-Gramm-Analysen haben gezeigt, dass es erhebliche Überschneidungen zwischen populären Benchmarks und den Trainingsdaten führender Modelle gibt. Zur Messung wurde der Kernel Divergence Score entwickelt. Er berechnet, wie stark sich die internen Repräsentationen eines Modells verändern, wenn man es gezielt auf Benchmark-Daten nachtrainiert. Ein niedriger Score bedeutet: Das Modell kannte die Daten bereits. Der Test misst dann nicht Intelligenz, sondern Gedächtnis.
Daneben gibt es die Preference Leakage: Wenn ein starkes Modell wie GPT-4 die Antworten anderer Modelle bewertet, bevorzugt es systematisch Antworten, die seinem eigenen Stil ähneln. Es entsteht eine Verzerrung, die nichts mit der tatsächlichen Qualität zu tun hat.
Gibt es bessere Alternativen?
Die Forschung reagiert. Systeme wie LiveBench generieren Aufgaben aus tagesaktuellen Quellen: neue Mathematik-Wettbewerbe, ArXiv-Preprints von gestern, frische Kaggle-Datensätze. Da diese Informationen zum Zeitpunkt des Modelltrainings noch nicht existierten, kann das Modell sie nicht auswendig gelernt haben.
DyCodeEval erzeugt Programmieraufgaben prozedural, also in unendlichen Varianten. Der vielversprechendste Ansatz heißt LLM-as-an-Interviewer: Statt eine statische Antwort zu verlangen, führt ein Richter-Modell ein Interview mit dem Prüfling. Es gibt Rückmeldung, verlangt Klärungen, stellt Anschlussfragen. Dabei zeigt sich, ob ein Modell sich korrigieren kann, flexibel denkt oder nur auswendig gelernte Muster abspult.
All das ist erst der Anfang. Aber die Richtung stimmt: weg von statischen Tests, die man auswendig lernen kann, hin zu dynamischen Prüfungen, die echtes Verständnis verlangen.
Was man daraus mitnehmen sollte
KI-Benchmarks sind nützlich als grobe Orientierung. Und sie sind ein Marketinginstrument. Beides gleichzeitig. Sie zeigen Trends in der Modellentwicklung, aber sie messen nicht, was viele glauben: echtes Verständnis, zuverlässiges Denken, Praxistauglichkeit.
Wer sich bei der Wahl eines KI-Modells auf Leaderboard-Platzierungen verlässt, trifft womöglich eine ähnlich fundierte Entscheidung wie jemand, der einen Diesel kauft, weil er im Labor so sauber war.
Die bessere Strategie besteht in eigenen Tests, mit eigenen Daten und eigenen Aufgaben. Ein Modell mit 92% in MMLU kann an deiner konkreten Anforderung trotzdem scheitern. Umgekehrt kann ein Modell mit niedrigerem Score genau das liefern, was du brauchst.
Quellen und Daten
- How Contaminated Is Your Benchmark? Quantifying Dataset Leakage in Large Language Models with Kernel Divergence – Methodik zur Messung von Datenkontamination (2025)
- Preference Leakage: A Contamination Problem in LLM-as-a-judge – Analyse der Richter-Verzerrung (2025)
- AI Sandbagging: Language Models Can Strategically Underperform on Evaluations – ICLR 2025
- The Leaderboard Illusion – Studie zu systematischen Verzerrungen auf Chatbot Arena (2025)
- GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models – Apple Research (2024)
- LiveBench: Dynamic LLM Benchmark Suite – Dynamische Evaluation als Alternative
- Scale AI’s Alexandr Wang confirms departure for Meta as part of $14.3 billion deal – CNBC (06/2025)
- Meta’s Avocado Delay Puts $135 Billion AI Bet Under Scrutiny – PYMNTS (03/2026)