OpenAI hat am 18. Juni ein Update für die Gesundheitsantworten von ChatGPT vorgestellt. Das Modell GPT-5.5 Instant, das alle Gratisnutzer bekommen, erreicht laut OpenAI bei den schwierigsten Gesundheitstests jetzt das Niveau der teuren Thinking-Modelle. 230 Millionen Menschen fragen die KI jede Woche nach Symptomen, Laborwerten und der Vorbereitung auf Arzttermine. Diese Antworten sollen nun besser sein.
Die Zahl, die OpenAI gern zeigt: In einem Vergleich bewertete eine Jury aus Ärzten die Antworten von GPT-5.5 Instant über mehrere Kriterien hinweg höher als die von echten Ärzten, die mit unbegrenzter Zeit und Internetzugang geschrieben hatten. 3.500 Antworten wurden geprüft. Gleichzeitig sei im Live-Betrieb die Rate der Antworten mit mindestens einem markierten Faktenfehler in zwei Monaten um 71% gefallen. Was im Umkehrschluss heißt: Vorher war da reichlich Luft nach oben, bei Milliarden Gesundheitsnachrichten pro Woche. Hinter den Bewertungen steht ein Netzwerk von mehr als 260 Ärzten aus 60 Ländern, die bislang über 700.000 Beispielantworten durchgesehen haben.
Für Nutzer ist das zwiespältig. Bessere Gesundheitsantworten ohne Abo sind ein echter Gewinn, gerade für Leute ohne schnellen Termin beim Hausarzt. Wer verstehen will, wie verlässlich so eine Antwort überhaupt ist, sollte allerdings wissen, dass das Modell im Kern das nächste Wort vorhersagt und keine Diagnose stellt. OpenAI misst seinen Erfolg zudem an selbst gebauten Tests wie HealthBench und an einer Handvoll Ärzte, die das Unternehmen für die Bewertung bezahlt. Ein unabhängiger Beleg ist das nicht.
Und der Konzern, dessen Chatbot angeblich die Ärzte aussticht, schreibt im selben Atemzug, ChatGPT sei kein Ersatz für medizinische Versorgung. Man soll der KI also glauben, dass sie gut ist, und ihr gleichzeitig nicht glauben, wenn es ernst wird. Wer trotzdem Laborwerte und Beschwerden in den Chat kippt, sollte vorher einen Blick auf den Datenschutz bei ChatGPT werfen. Gesundheitsdaten sind mit das Sensibelste, was man eintippen kann.
Quellen
Ähnliche News
- Ein offenes Modell aus China schlägt GPT-5.5 beim Coding
- Kimi K2.7 Code schlägt vor allem den eigenen Vorgänger
- MiniMax M3 schlägt GPT-5.5 beim Programmieren und kostet einen Bruchteil
Diese Meldung wurde mit Unterstützung von Claude (Anthropic) recherchiert und verfasst. Inhaltliche Fehler sind möglich. Die verlinkten Quellen ermöglichen eine eigene Prüfung. Fachbegriffe erläutert das Glossar.