OpenAI Codex — Vom Coding-Tool zur Alles-App

2021 war Codex eine API, die Python-Zeilen vervollständigte. Fünf Jahre später sitzt eine Desktop-App auf dem Rechner, die parallel Agenten auf Code loslässt, einen eigenen Browser mitbringt und sich an Gespräche von letzter Woche erinnert. OpenAI Codex hat sich vom Entwicklerwerkzeug zur Schaltzentrale gewandelt. Ob die auch hält, was sie verspricht, ist eine andere Frage.

Inhaltsverzeichnis

Was OpenAI Codex heute kann

Codex startete als reine Code-Vervollständigung. Inzwischen beschreibt OpenAI das Produkt als »AI Coding Partner«, aber der Begriff greift zu kurz. Seit dem Update vom 16. April 2026 ist Codex eine Desktop-Anwendung für macOS und Windows, die deutlich mehr macht als Code schreiben.

OpenAI Codex ist eine KI-gestützte Coding-Plattform von OpenAI, verfügbar als Desktop-App, Kommandozeilen-Tool (CLI) und Cloud-Dienst. Sie nutzt GPT-5-Modelle, um Code zu schreiben, Fehler zu finden und Entwicklungsaufgaben in isolierten Sandbox-Umgebungen parallel auszuführen.

Die App verwaltet mehrere Agenten gleichzeitig. Jeder Agent arbeitet in einer eigenen Cloud-Sandbox, einem isolierten Container, der vom lokalen Rechner getrennt läuft. Ein Agent schreibt Tests, ein zweiter refaktorisiert eine Klasse, ein dritter durchsucht die Codebasis nach einem Bug. Alles parallel, ohne dass sich die Aufgaben in die Quere kommen.

Dazu kommen über 90 Plugins für Gmail, Google Drive, Slack, Notion und Microsoft-Dienste. Ein eingebauter Browser auf Atlas-Basis. Bildgenerierung mit gpt-image-1.5. Und sogenannte Automations, also mehrtägige Aufgabenketten, die ohne manuellen Anstoß weiterlaufen. Issue-Triage, Alert-Monitoring, CI/CD-Pipelines, alles im Hintergrund.

Zeittafel: OpenAI Codex von der API zur App

2021	Codex API auf GPT-3-Basis, spezialisiert auf Code-Vervollständigung
2022	GitHub Copilot nutzt Codex-Technologie, erreicht Millionen Entwickler
2023	OpenAI stellt die Codex API ein, Fokus verschiebt sich auf GPT-4
2025	Codex CLI erscheint als Open-Source-Tool, geschrieben in Rust
Feb 2026	Desktop-App für macOS und GPT-5.3-Codex
Mär 2026	Windows-Version und GPT-5.4 als Standardmodell
Apr 2026	Token-basierte Abrechnung, großes Update mit Computer Use, 90+ Plugins, Automations und Chronicle, GPT-5.5 und Codex auf AWS Bedrock

Mehr als vier Millionen wöchentlich aktive Nutzer meldet OpenAI inzwischen, drei Millionen waren es noch Mitte April. Das monatliche Token-Wachstum liegt bei 70 Prozent. Die Hälfte der Nutzer setzt das Tool bereits für Aufgaben jenseits des Programmierens ein. Im Kern hat sich Codex von einem Coding-Tool in eine agentenbasierte Arbeitsumgebung verwandelt.

Das Tempo bleibt hoch. Eine Woche nach dem April-Update hat OpenAI GPT-5.5 veröffentlicht, das nun in Codex zum empfohlenen Modell geworden ist. Wenige Tage später kam die Partnerschaft mit Amazon, durch die Codex und die OpenAI-Modelle jetzt auch über Amazon Bedrock laufen. Wer Enterprise-Workloads bereits in AWS hat, kann Codex dort einbinden, ohne die gewohnten Sicherheits- und Compliance-Strukturen zu verlassen.

Die CLI — Open Source und in Rust gebaut

Neben der Desktop-App gibt es die Codex CLI, ein Open-Source-Projekt auf GitHub. Ein npm-Befehl oder Homebrew reicht zur Installation. Die CLI läuft lokal, liest und verändert Code im ausgewählten Verzeichnis und schickt Anfragen direkt an die OpenAI-API.

Für Entwickler, die lieber im Terminal bleiben, ist die CLI der schnellere Zugang. Sie braucht keinen Account bei der Desktop-App und funktioniert mit jedem ChatGPT-Abo ab Plus. Der Quellcode ist öffentlich einsehbar, was Vertrauen schafft, aber auch zeigt, wie jung das Projekt stellenweise noch ist.

Wer mit Vibe Coding experimentiert, also ohne tiefe Programmierkenntnisse Apps baut, wird womöglich eher zur Desktop-App greifen. Die CLI setzt voraus, dass man mit einem Terminal umgehen kann und will.

Was Codex kostet und wo die Limits liegen

Seit April 2026 rechnet OpenAI nach Token-Verbrauch ab, nicht mehr pro Nachricht. ChatGPT Plus für 20 Dollar im Monat enthält Codex, allerdings mit begrenztem Kontingent pro Fünf-Stunden-Fenster. Wer Codex intensiv nutzt, stößt schnell an diese Grenze.

Seit dem 9. April gibt es einen Mittelweg. ChatGPT Pro für 100 Dollar bietet das Fünffache der Plus-Limits, ausdrücklich positioniert als Antwort auf Anthropics gleichteuren Claude-Tarif. Das Top-Pro-Abo für 200 Dollar liegt bei 20-fachen Plus-Limits, also weit über dem, was die meisten brauchen. Für Teams gibt es ein Pay-as-you-go-Modell, das nach tatsächlichem Verbrauch abrechnet. Im Vergleich der großen KI-Anbieter liegt Codex damit im Mittelfeld, ist aber pro Aufgabe günstiger als viele Alternativen, weil GPT-5-Modelle weniger Token verbrauchen als vergleichbare Konkurrenzmodelle bei ähnlicher Qualität.

Wer gar kein Geld ausgeben will, kann Codex aktuell auch im kostenlosen ChatGPT-Tarif ausprobieren. Allerdings mit so engen Limits, dass es eher zum Testen taugt als zum Arbeiten.

Codex oder Claude Code — Wer programmiert besser?

Das ist die Frage, die gerade jedes Entwicklerforum umtreibt. Die Antwort ist nicht ganz so einfach, wie beide Lager es gern hätten.

In einer Umfrage unter mehr als 500 Entwicklern auf Reddit bevorzugten 65 Prozent Codex im täglichen Gebrauch. Gleichzeitig bewerteten Blind-Reviews den von Claude Code produzierten Code in 67 Prozent der Fälle als sauberer. Geschwindigkeit und Bequemlichkeit auf der einen Seite, Codequalität auf der anderen.

Claude Code, angetrieben von Claude Opus 4.7, arbeitet lokal im Terminal. Es versteht Codebases als Ganzes, durchdringt komplexe Architekturen und behält auch bei langen Kontexten den Überblick. Codex setzt seit dem 23. April auf GPT-5.5, davor war GPT-5.4 das Standardmodell. Architektur und Ansatz unterscheiden sich klar von Claude Code. Cloud-Sandboxes, parallele Agenten, asynchrone Aufgaben. Codex arbeitet schneller bei klar definierten Tasks, verliert bei verwickelten Zusammenhängen aber gelegentlich den Faden.

Auf dem SWE-bench Pro liegen beide nah beieinander. Auf dem Terminal-Bench 2.0 hat Codex einen spürbaren Vorsprung bei terminalbasierten Aufgaben. Die meisten professionellen Entwickler fahren inzwischen zweigleisig. Das ist womöglich auch die klügste Strategie.

OpenAI Codex und Claude Code im Vergleich

	OpenAI Codex	Claude Code
Architektur	Cloud-Sandboxes, parallele Agenten	Lokal im Terminal, direkter Dateizugriff
Modell	GPT-5.5 (April 2026)	Claude Opus 4.7 (April 2026)
Stärke	Geschwindigkeit, Parallelität, Kosten pro Task	Codequalität, Kontextverständnis, Architekturarbeit
Preis (Basis)	ab 20 $/Monat (ChatGPT Plus)	ab 20 $/Monat (Claude Pro) oder API
Open Source	CLI ja (Rust, auf GitHub)	Ja (auf GitHub)
EU-Einschränkungen	Computer Use und Chronicle gesperrt	Keine bekannten

Ein KI-Coding-Agent ist Software, die eigenständig Code liest, schreibt und ausführt. Im Unterschied zu einem Chat-Assistenten kann ein Agent mehrere Schritte hintereinander planen und umsetzen, ohne dass ein Mensch jeden einzelnen Schritt bestätigen muss.

Was in der EU nicht funktioniert

Nicht alles, was Codex kann, ist auch überall verfügbar. Computer Use, also die Fähigkeit, den Rechner eigenständig zu bedienen, und Chronicle, ein Memory-System, das Bildschirminhalte mitliest und daraus Kontext baut, sind im Europäischen Wirtschaftsraum, in Großbritannien und in der Schweiz gesperrt. OpenAI nennt regulatorische Gründe, ohne konkreter zu werden. Computer Use ist zudem auf macOS beschränkt, Windows-Nutzer warten weiter.

Das schränkt den Funktionsumfang für europäische Nutzer spürbar ein. Die Kernfunktionen, also Cloud-Agenten, Plugins, der eingebaute Browser und die Bildgenerierung, bleiben verfügbar. Aber das Versprechen einer »Alles-App« löst Codex in Europa nur teilweise ein.

Wer sich mit KI-generiertem Code beschäftigt, sollte zudem die Sicherheitsfrage nicht übergehen. In 60 Prozent der Red-Team-Tests bei produktivitätsintegrierten KI-Copilots gelang Datenexfiltration durch Prompt Injection. Plausibel, dass dieses Risiko mit der wachsenden Zahl an Plugins und Automatisierungen eher steigt als sinkt.

Für wen sich OpenAI Codex lohnt

Codex ist am stärksten, wenn die Aufgaben klar umrissen sind. Bug fixen, Tests schreiben, eine Funktion nach Spezifikation implementieren. Die parallele Ausführung spart tatsächlich Zeit, wenn man mehrere solcher Aufgaben gleichzeitig hat.

Für architektonische Entscheidungen, für das Durchdenken komplexer Systeme, für alles, was Urteilsvermögen braucht, ist ein interaktives Tool im Terminal vermutlich besser geeignet. Nicht weil Codex das nicht kann, sondern weil der Cloud-Ansatz den Feedback-Loop verlängert.

Und für alle, die eigentlich nur wissen wollen, ob KI programmieren kann. Ja, inzwischen ziemlich gut. Aber der Unterschied zwischen »die KI hat Code produziert« und »der Code tut, was er soll, und ist auch in sechs Monaten noch wartbar« bleibt beträchtlich.

OpenAI hat mit Codex ein Produkt gebaut, das sich alle sechs Wochen neu erfindet. Die Richtung ist klar, weniger tippen, mehr delegieren. Ob das am Ende besser funktioniert als der kontrollierte Terminal-Ansatz, wird sich zeigen. Die Wahrheit ist womöglich, dass es beides braucht. (lk)