Selbst OpenAIs bestes Modell scheitert an echter Biologie-Forschung

KI-News: GeneBench-Pro, 31,5%, Biologie

OpenAI hat mit GeneBench-Pro einen neuen Härtetest veröffentlicht, der KI-Agenten nicht mit hübsch aufbereiteten Testfragen konfrontiert, sondern mit echten, chaotischen Forschungsdaten aus Genomik, Populationsgenetik und klinischer Diagnostik. 129 Aufgaben, entwickelt und geprüft zusammen mit externen Fachleuten aus Human- und Bioinformatik, sollen messen, ob ein Modell selbstständig entscheiden kann, welche Analyse zu welchem Datensatz passt. Bestes Ergebnis im gesamten Testfeld: 31,5 Prozent.

Das ist der Wert von GPT-5.6 Sol im maximalen Reasoning-Modus, also mit voller Rechenpower. Ohne diesen Boost bleiben nur einstellige Prozentwerte übrig. Zum Vergleich: Anthropics Claude Opus 4.8 kommt im gleichen Test auf 16 Prozent, alle offenen Modelle liegen noch weiter dahinter. Laut OpenAI würde ein menschlicher Fachexperte für eine einzelne dieser Aufgaben 20 bis 40 Stunden brauchen, macht bei 200 Dollar Stundensatz schnell einen vierstelligen Betrag. Die KI probiert dieselbe Aufgabe für ein paar Dollar Rechenzeit und liegt in zwei von drei Fällen daneben.

Für alle, die KI-Agenten schon als Ersatz für ganze Laborteams verkaufen, ist das eine kalte Dusche. »Research taste«, also die Fähigkeit zu erkennen, welche Fragen ein Datensatz überhaupt beantworten kann und wann eine erste Annahme über Bord muss, fehlt den Modellen offenbar noch fast komplett. Wer sich fragt, wie viel ein KI-Benchmark eigentlich wert ist, bekommt hier ein Gegenbeispiel zu den üblichen Hochglanz-Ergebnissen: gute Zahlen bei Coding-Tests bedeuten nicht automatisch gute Urteilsfähigkeit bei echten Forschungsfragen.

Immerhin zeigt die Kurve steil nach oben. Als OpenAI die Vorgängerversion GeneBench Anfang des Jahres testete, schaffte das damalige Spitzenmodell GPT-5 keine 5 Prozent. Wenn sich das Tempo hält, ist dieser Benchmark laut OpenAI bis Jahresende gesättigt. Bis dahin bleibt die eigentliche Erkenntnis: Bei Routineaufgaben ist KI inzwischen brauchbar, bei echter wissenschaftlicher Urteilsfähigkeit reicht es noch nicht mal für die Note ausreichend.

Quellen

Ähnliche News

Diese Meldung wurde mit Unterstützung von Claude (Anthropic) recherchiert und verfasst. Inhaltliche Fehler sind möglich. Die verlinkten Quellen ermöglichen eine eigene Prüfung. Fachbegriffe erläutert das Glossar.

Bist du bereit für mehr?

Was sagst du dazu?