Ein Konsortium aus 64 Mathematikerinnen und Mathematikern hat einen neuen KI-Benchmark namens SOOHAK veröffentlicht. 439 Aufgaben, alle frisch geschrieben, davon 340 auf Forschungsniveau und 99 absichtlich fehlerhaft. Die Refusal-Variante ist die eigentliche Pointe. Keine dieser 99 Aufgaben hat eine Lösung. Die führenden Sprachmodelle merken das nicht und liefern Zahlen.
Im Challenge-Set mit 340 Forschungsaufgaben kommt Gemini 3 Pro auf 30,39%, GPT-5 auf 26,37%, Claude Opus 4.5 auf 10,39%. 124 der Challenge-Aufgaben hat überhaupt kein einziges getestetes Modell geknackt. Im Refusal-Set, wo die Modelle erkennen sollen, dass ein Problem keine Lösung hat, liegt das beste geschlossene Modell bei 43,1%. GLM-5 von Zhipu führt diese Kategorie mit 49,49%. Geschrieben wurde der Test von 38 Professoren, 25 Doktoranden und Postdocs sowie fünf IMO-Medaillengewinnern.
Der Befund trifft einen alten Reflex der Sprachmodelle. Sie sind darauf trainiert, eine Antwort zu produzieren. Existiert keine, dann halluzinieren sie eine, und zwar im selben überzeugten Tonfall wie bei einer korrekten Lösung. Für die tägliche Arbeit mit KI heißt das: Eine selbstbewusste Antwort ist kein Qualitätsmerkmal. Wer KI in Recherche, Recht oder Buchhaltung nutzt, sollte einplanen, dass das Modell auch dann eine Zahl liefert, wenn die Frage gar keine zulässt.
Der vollständige Datensatz bleibt bis Ende 2026 unter Verschluss, damit Trainingsdaten nicht kontaminiert werden. Modelle können sich zur Auswertung einreichen lassen. SOOHAK reiht sich damit ein in eine wachsende Familie von Tests, die nicht messen, was eine KI weiß, sondern wo sie ihre eigenen Grenzen verkennt. Mehr Hintergrund dazu, warum diese Form der Messung wichtiger ist als reine Punktelisten, steht im Artikel zu KI-Benchmarks.
Quellen
- arXiv: Soohak — A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs
- Science: ‘Brutal’ math test stumps AI but not human experts
Ähnliche News
Diese Meldung wurde mit Unterstützung von Claude (Anthropic) recherchiert und verfasst. Inhaltliche Fehler sind möglich. Die verlinkten Quellen ermöglichen eine eigene Prüfung. Fachbegriffe erläutert das Glossar.