Ein getuntes Qwen schlägt GPT-5.5 bei Finanzaufgaben, zum Vierzehntel des Preises

KI-News: Qwen, 84,7%, Finanzaufgaben

Der weltgrößte Hedgefonds Bridgewater hat zusammen mit Thinking Machines Lab, dem Startup der früheren OpenAI-Technikchefin Mira Murati, ein frei herunterladbares Sprachmodell so lange trainiert, bis es GPT-5.5, Claude Opus 4.8 und Gemini bei Finanzaufgaben hinter sich lässt. Basis war Qwen3-235B, ein Open-Weight-Modell aus China. Das getunte Modell trifft in 84,7 Prozent der Fälle richtig, das beste Frontier-Modell kam auf 78,2 Prozent.

Die Aufgaben klingen banal. Ist dieser Nachrichtenartikel für einen Investor relevant, wo endet in diesem Dokument der Textbaustein und wo beginnt die eigentliche Analyse. Für die Leute bei Bridgewater Routine, für die teuren Modelle ein Desaster. Mit schlichten Prompts landeten Gemini, Claude und GPT bei rund 50 Prozent, also Münzwurf. Erst mit Prompts, die Fachleute von Hand geschrieben hatten, kletterten sie in die Mitte-70er, über 80 Prozent kam keins. Das feingetunte Qwen macht 29,8 Prozent weniger Fehler als der beste Konkurrent und kostet pro Aufgabe knapp ein Vierzehntel.

Die Lehre ist unbequem für alle, die auf das nächste große Modell warten, als löse es jedes Problem. Neue Modelle verbessern genau diese Arbeit kaum. GPT 5.4 kostet 43 Prozent mehr als der Vorgänger und ist nur minimal genauer. Was den Unterschied macht, sind nicht mehr Parameter, sondern saubere, von echten Fachleuten gelabelte Daten. Für Nutzer heißt das: Wer eine eng umrissene, immer gleiche Aufgabe hat, fährt mit einem kleinen, spezialisierten Modell womöglich besser als mit dem Abo-Riesen, dessen Benchmark-Bestwerte im Alltag wenig helfen. Bridgewater nennt das »differenzierte Intelligenz«.

Ein Haken bleibt. Die Zahlen hat außer den beiden Firmen niemand geprüft, und die Aufgaben stammen aus Bridgewaters eigenem Alltag. Ein Modell, das interne Finanzdokumente sortiert, ist noch kein Beweis, dass der Trick überall zieht. Als Dämpfer gegen den Glauben, nur das größte Modell zähle, taugt die Sache trotzdem.

Quellen

Ähnliche News

Diese Meldung wurde mit Unterstützung von Claude (Anthropic) recherchiert und verfasst. Inhaltliche Fehler sind möglich. Die verlinkten Quellen ermöglichen eine eigene Prüfung. Fachbegriffe erläutert das Glossar.

Bist du bereit für mehr?

Was sagst du dazu?