Sakanas Fugu kommandiert fremde KI-Modelle und verbrennt dabei dein Tageslimit

KI-News: Sakana Fugu, Orchestrator, 73,7

Sakana AI hat Fugu veröffentlicht, ein Sprachmodell, das selbst keine Aufgabe löst. Es kommandiert andere. Hinter einer einzigen API entscheidet Fugu, welche fremden Modelle es für eine Anfrage zusammenruft, delegiert die Arbeit, prüft die Ergebnisse und baut daraus eine Antwort. Zwei Varianten gibt es, das schnelle Fugu und das gründliche Fugu Ultra, seit dem 22. Juni allgemein verfügbar. Gebaut hat das Ganze die Tokioter Firma um Llion Jones, Mitautor des Transformer-Papers von 2017.

In Sakanas eigenen Benchmarks steht Fugu Ultra auf Augenhöhe mit Anthropics Fable 5 und Mythos Preview, bei SWE Bench Pro etwa 73,7 Punkte gegen 69,2 für Opus 4.8. Pikant daran: Genau die beiden Anthropic-Modelle, an denen sich Fugu misst, stecken gar nicht im Agenten-Pool, weil sie nicht öffentlich zugänglich sind. Fugu gewinnt also gegen Gegner, gegen die es nie antritt. Knapp 500 Beta-Nutzer haben das System vorab getestet.

Dann kamen die ersten unabhängigen Tests, und die Benchmark-Tabelle schrumpft. KI-Forscher Ethan Mollick nennt Fugu Ultra »unglaublich langsam«, ein einzelner Coding-Test habe 30 Minuten gedauert. Ein anderer Tester verbrannte sein komplettes Fünf-Stunden-Kontingent des 20-Dollar-Plans mit einem einzigen Prompt. Auf Hacker News rechnen Entwickler vor, dass 200 Dollar im Monat für weniger als drei Stunden Nutzung pro Woche reichen. Bei Code-Reviews findet Fugu zuverlässig mehr Fehler als die Konkurrenz, der Rest ist durchwachsen. Dass ein Orchestrator viele Modelle nacheinander aufruft, treibt nebenbei die Kosten in die Höhe, und es bestätigt einmal mehr, dass der Abstand zwischen Demo und Alltag bei Agenten groß bleibt.

Sakana verkauft Fugu als Versicherung gegen die Abhängigkeit von einem einzigen Anbieter und verweist ausdrücklich auf die jüngsten Exportkontrollen für Fable und Mythos. Fällt ein Anbieter weg, routet Fugu drumherum. Das klingt nach Souveränität, ist aber keine. Der Dirigent hängt weiter komplett an den Modellen im Pool, und für seine Benchmarks zieht Sakana ausgerechnet proprietäre Modelle wie Claude heran. Wer auf gemietete Fremdmodelle setzt, hat die Abhängigkeit nicht abgeschafft, sondern nur einen teuren Taktstock davorgestellt.

Quellen

Ähnliche News

Bist du bereit für mehr?

Was sagst du dazu?