Der weltgrößte Hedgefonds Bridgewater hat zusammen mit Thinking Machines Lab, dem Startup der früheren OpenAI-Technikchefin Mira Murati, ein frei herunterladbares Sprachmodell so lange trainiert, bis es GPT-5.5, Claude Opus 4.8 und Gemini bei Finanzaufgaben hinter sich lässt. Basis war Qwen3-235B, ein Open-Weight-Modell aus China. Das getunte Modell trifft in 84,7 Prozent der Fälle richtig, das beste Frontier-Modell kam auf 78,2 Prozent.
Die Aufgaben klingen banal. Ist dieser Nachrichtenartikel für einen Investor relevant, wo endet in diesem Dokument der Textbaustein und wo beginnt die eigentliche Analyse. Für die Leute bei Bridgewater Routine, für die teuren Modelle ein Desaster. Mit schlichten Prompts landeten Gemini, Claude und GPT bei rund 50 Prozent, also Münzwurf. Erst mit Prompts, die Fachleute von Hand geschrieben hatten, kletterten sie in die Mitte-70er, über 80 Prozent kam keins. Das feingetunte Qwen macht 29,8 Prozent weniger Fehler als der beste Konkurrent und kostet pro Aufgabe knapp ein Vierzehntel.
Die Lehre ist unbequem für alle, die auf das nächste große Modell warten, als löse es jedes Problem. Neue Modelle verbessern genau diese Arbeit kaum. GPT 5.4 kostet 43 Prozent mehr als der Vorgänger und ist nur minimal genauer. Was den Unterschied macht, sind nicht mehr Parameter, sondern saubere, von echten Fachleuten gelabelte Daten. Für Nutzer heißt das: Wer eine eng umrissene, immer gleiche Aufgabe hat, fährt mit einem kleinen, spezialisierten Modell womöglich besser als mit dem Abo-Riesen, dessen Benchmark-Bestwerte im Alltag wenig helfen. Bridgewater nennt das »differenzierte Intelligenz«.
Ein Haken bleibt. Die Zahlen hat außer den beiden Firmen niemand geprüft, und die Aufgaben stammen aus Bridgewaters eigenem Alltag. Ein Modell, das interne Finanzdokumente sortiert, ist noch kein Beweis, dass der Trick überall zieht. Als Dämpfer gegen den Glauben, nur das größte Modell zähle, taugt die Sache trotzdem.
Quellen
- Thinking Machines Lab: Learning to Replicate Expert Judgment in Financial Tasks
- WinBuzzer: Fine-Tuned Alibaba Qwen AI Model Outperforms Claude, GPT, Gemini in Finance Tasks
Ähnliche News
- Ein offenes Modell aus China schlägt GPT-5.5 beim Coding
- MiniMax M3 schlägt GPT-5.5 beim Programmieren und kostet einen Bruchteil
- Opus 4.8 schlägt GPT-5.5 und Gemini in Anthropics eigenen Agenten-Benchmarks
Diese Meldung wurde mit Unterstützung von Claude (Anthropic) recherchiert und verfasst. Inhaltliche Fehler sind möglich. Die verlinkten Quellen ermöglichen eine eigene Prüfung. Fachbegriffe erläutert das Glossar.