Mathe und Künstliche Intelligenz: Welches Modell rechnet am besten?

KI Mathe klingt nach einem gelösten Problem. Grok 4 Heavy und GPT-5 Pro schaffen 100 Prozent im AIME-Wettbewerb, dem wichtigsten Mathe-Benchmark der Branche. Vor zwei Jahren lag das beste Modell unter 30 Prozent. Doch die Frage »Welche KI kann am besten rechnen?« hat keine einfache Antwort. Es kommt drauf an, was man unter »rechnen« versteht.

Inhaltsverzeichnis

Wie misst man, ob eine KI Mathe kann?

Drei Benchmarks haben sich etabliert, und jeder misst etwas anderes. Der AIME (American Invitational Mathematics Examination) ist ein US-Wettbewerb für mathematisch begabte Oberstufenschüler. 15 Aufgaben, keine Multiple-Choice, jede Antwort eine ganze Zahl zwischen 000 und 999. Der Test gilt als anspruchsvoll, aber berechenbar. KI-Modelle haben ihn inzwischen im Kern geknackt. Wobei ein Vorbehalt bleibt: Modelle, die intensiv auf Wettbewerbsmathematik trainiert wurden, können dort besser abschneiden, als es ihr allgemeines Niveau vermuten ließe.

AIME steht für American Invitational Mathematics Examination. Der Test prüft mathematisches Problemlösen auf Wettbewerbsniveau und dient seit 2024 als einer der wichtigsten Benchmarks für die Rechenfähigkeit von KI-Modellen.

MATH 500 deckt ein breiteres Feld ab: Algebra, Geometrie, Zahlentheorie, Wahrscheinlichkeitsrechnung. Hier zeigen sich die Allrounder. Und dann gibt es FrontierMath von Epoch AI, den härtesten Mathe-Test für KI überhaupt. 350 Aufgaben, bei denen selbst promovierte Mathematiker Stunden oder Tage brauchen. Die Antworten lassen sich nicht erraten, weil die Aufgaben originale, unveröffentlichte Forschungsprobleme sind.

Wer nur AIME-Ergebnisse vergleicht, sieht ein verzerrtes Bild. Ein Modell kann dort perfekt abschneiden und bei Forschungsmathematik trotzdem versagen.

Das Ranking: Welche KI rechnet am besten?

Im AIME 2025 ist das Feld an der Spitze eng. Entscheidend ist aber, unter welchen Bedingungen getestet wird. Mit Code-Ausführung (also Zugang zu einem Python-Interpreter) erreichen Grok 4 Heavy und GPT-5 Pro jeweils 100 Prozent. Claude Opus 4.6 kommt auf 99,8 Prozent, Gemini 3 Pro auf 95 Prozent. Ohne Tools liegen die Werte teils deutlich niedriger: GPT-5 ohne Python-Zugang schafft rund 95 Prozent statt 100.

Interessant wird es bei den Spezialisten. OpenAIs o4-mini, eigentlich das kleinere und günstigere Modell, schafft mit Code-Ausführung 99,5 Prozent. Wer es nur auf die richtige Antwort anlegt, braucht nicht zwingend das teuerste Modell.

Bei einfachen Alltagsrechnungen verschiebt sich das Bild noch stärker. Laut einem Benchmark von OpenMark (März 2026) führt Googles Gemini 3.1 Flash Lite dort mit 70 Prozent, während Claude Opus 4.6 nur 50 Prozent und GPT-5.4 nur 55 Prozent erreichen. Das Flaggschiff von OpenAI ist bei Dreisatz und Textaufgaben nicht automatisch die erste Wahl.

KI Mathe auf Olympiade-Niveau

GPT-5.4 hat beim US Math Olympiad 2026 (USAMO) laut einer Auswertung von MathArena 95,24 Prozent der Aufgaben gelöst. Gemini 3.1 Pro erreichte 74,4 Prozent, Claude Opus 4.6 kam auf 47 Prozent. Bei der Internationalen Mathematik-Olympiade (IMO) 2025 gewannen sowohl OpenAI als auch Googles DeepMind Gold.

Das klingt nach totaler Überlegenheit. Ist es nicht ganz.

USAMO-Aufgaben verlangen mehrseitige Beweise, nicht nur Ergebnisse. GPT-5.4 benötigt dafür über 30.000 Reasoning-Tokens pro Aufgabe. Das entspricht einem kleinen Buch an innerem Monolog für eine einzige Rechnung. Die Modelle »denken« nicht wie Mathematiker. Sie produzieren riesige Mengen an Zwischenschritten und filtern daraus die plausiblen Lösungswege. Elegant ist das nicht. Aber es funktioniert. Die Bewertung erfolgte übrigens per LLM-Jury (GPT-5.4, Gemini 3.1 Pro, Opus 4.6 als Gutachter) mit anschließender menschlicher Prüfung. Die Abweichung zwischen automatischer und manueller Bewertung lag bei maximal zwei Punkten.

Die Ruhr-Universität Bochum hat unter Leitung von Prof. Christian Stump einen eigenen Benchmark entwickelt: über 200 Aufgaben aus verschiedenen Bereichen der Mathematik, eingereicht von Forschern weltweit. Das beste Modell löste 40 Prozent, das schlechteste 12 Prozent. Die Spreizung zwischen den Modellen ist erheblich, auch wenn die Werbung suggeriert, sie seien alle »auf Augenhöhe«.

Wo selbst die beste KI versagt

FrontierMath stellt Aufgaben, die kein Modell zuverlässig lösen kann. Als der Benchmark 2024 startete, schaffte kein Modell mehr als 2 Prozent. Inzwischen hat GPT-5.4 Pro laut Epoch AI (März 2026) einen neuen Rekord gesetzt: 50 Prozent auf den mittelschweren Aufgaben (Tier 1 bis 3) und 38 Prozent auf Tier 4, den schwersten Forschungsproblemen. GPT-5.2 lag zuvor bei rund 40 Prozent gesamt. Fortschritt, ja. Aber die Hälfte der mittelschweren und fast zwei Drittel der schwersten Aufgaben bleiben ungelöst.

FrontierMath ist ein Benchmark von Epoch AI mit 350 mathematischen Forschungsaufgaben. Die Probleme sind original und unveröffentlicht, sodass richtige Antworten nicht durch Trainingseffekte erzielt werden können. Er gilt als der anspruchsvollste Mathe-Test für KI weltweit.

Für Schulaufgaben, Klausuren und Standardprobleme sind KI-Modelle womöglich bereits zuverlässiger als die meisten Menschen. Für echte Forschung, für neue Beweise und ungelöste Probleme, fehlt noch einiges. Plausibel, dass sich das ändert. Aber wann, weiß niemand.

Was das für Schüler und Studenten bedeutet

Wer KI als Taschenrechner-Ersatz nutzt, verschenkt das Potenzial. Die eigentliche Stärke liegt im Erklären. Claude Sonnet 4.6 hat seine Mathe-Fähigkeiten laut Benchmark-Vergleichen um 27 Prozentpunkte gesteigert (von 62 auf 89 Prozent im MATH-Benchmark) und liefert dabei nachvollziehbare Lösungswege Schritt für Schritt. Für Lernende ist das womöglich wertvoller als die reine Rechenkraft eines GPT-5.4, das zwar die richtige Antwort ausspuckt, aber den Weg dorthin in 30.000 Tokens versteckt.

Ein paar Ansätze, die beim Lernen mit KI funktionieren: Die KI als Tutor nutzen, der Lösungswege erklärt statt nur Ergebnisse liefert. Eigene Lösungen von der KI prüfen lassen, nicht umgekehrt. Übungsaufgaben auf dem eigenen Niveau generieren lassen. Und vor allem: nachfragen. »Warum dieser Schritt?« ist der Prompt, der den Unterschied macht.

Ich lerne gerade [Thema]. Erkläre mir die Lösung dieser Aufgabe Schritt für Schritt, aber verrate mir die Antwort nicht sofort. Lass mich nach jedem Schritt selbst weiterdenken.

[Aufgabe hier einfügen]

Die Versuchung liegt auf der Hand: einfach die Aufgabe eintippen und die Antwort kopieren. Das funktioniert für Hausaufgaben. Für die Klausur nicht. Und für das Verständnis schon gar nicht. Wer sich dafür interessiert, wie man einer KI die richtigen Fragen stellt, kommt weiter als jemand, der nur Antworten abgreift.

KI kann bei standardisierten Aufgaben inzwischen besser rechnen als die meisten Menschen. Verstehen, was sie rechnet, muss immer noch jemand anderes. (lk)