Dasselbe Modell, dieselbe Frage, drei verschiedene Antworten

KI-News: Biologie, gget virus, 16,9% auf 99,7%

Anthropic hat hunderte KI-Agenten auf eine Routineaufgabe losgelassen, an der sich entscheidet, ob das mit der Wissenschafts-KI ernst gemeint ist: Virensequenzen aus der NCBI-Datenbank ziehen, Alltagsarbeit jedes Virologen. Das Ergebnis fiel mau aus. Selbst die stärksten Modelle erreichten Trefferquoten zwischen 16,9% und 91,3%, und auf dieselbe Frage spuckten sie bei jedem Durchlauf etwas anderes aus. Am Montag, den 30. Juni, zeigt das Unternehmen die Arbeit beim virtuellen Event »The Briefing: AI for Science«.

Der Test heißt VirBench, 120 realistische Abfragen über 40 Erreger. Ein Beispiel mit echtem Gewicht: Claude Sonnet 4 sollte Ebola-Sequenzen für eine Stammbaum-Analyse holen und lieferte in drei identischen Durchläufen 106, dann 15, dann 5 Treffer. Erwartet waren 266. Wer daraus den Ausbruchsbeginn rekonstruiert, landet je nach Lauf bei April 2014 oder, in einem Fall, im Jahr 1922. Dann kam gget virus dazu, ein deterministisches Werkzeug, das Anthropic mit Forschern der NCBI gebaut hat. Die Genauigkeit sprang bei allen Agenten über 90%, bei GPT-5.5 auf 99,7%. Die Streuung zwischen den Läufen verschwand fast komplett.

Die eigentliche Pointe steht zwischen den Zeilen. Nicht das Modell war der Flaschenhals, sondern eine Datenbank, die für klickende Menschen gebaut wurde und nicht für Maschinen. Mit dem passenden Werkzeug wird die Modellwahl fast egal, ein billiges Modell plus Tool schlägt das teure Modell ohne. Für alle, die KI-Agenten ernsthaft einsetzen wollen, ist das die unbequeme Nachricht: Die interessante Arbeit liegt nicht im nächsten Milliardenmodell, sondern in der langweiligen Infrastruktur darunter. Und die Antworten können dabei jederzeit plausibel aussehen und trotzdem falsch sein.

Anthropic räumt selbst ein, dass solche Hilfswerkzeuge überflüssig werden könnten, sobald Modelle gut genug sind, sich allein durch das Datenchaos zu wühlen. Nur, selbst wenn ein Agent es kann, sollte er es nicht bei jeder Abfrage neu erfinden. Zu teuer, zu langsam, zu schwer zu prüfen. Bei einem laufenden Ebola-Ausbruch will niemand darauf wetten, dass die KI diesmal zufällig alle Sequenzen erwischt hat.

Quellen

Ähnliche News

Bist du bereit für mehr?

Was sagst du dazu?