Warum KI Agenten immer teurer werden

Eine Frage an ChatGPT kostet Bruchteile eines Cents. Ein KI-Agent, der dieselbe Aufgabe eigenständig löst, kann zehn Dollar verschlingen. Für eine einzige Aufgabe. Das klingt nach Rechenfehler, ist aber das Ergebnis einer Architektur, die Token nicht addiert, sondern multipliziert.

KI-News Branche Cloudflare will KI-Suchmaschinen für jede genutzte Antwort zahlen lassen vor 1 Tag

Agentische KI ist das große Thema 2026. Coding-Agenten schreiben Programme, Recherche-Agenten durchsuchen Quellen, Planungsagenten organisieren Projekte, ersetzen sogar Mitarbeiter.

Was sie alle gemeinsam haben: Sie arbeiten in Schleifen, rufen Werkzeuge auf, bewerten Zwischenergebnisse und entscheiden selbst über den nächsten Schritt. Das klingt nach Fortschritt. Ist es auch. Nur kostet dieser Fortschritt ein Vielfaches dessen, was ein normaler Chat verbraucht.

Inhaltsverzeichnis

Was ein KI-Agent anders macht als ein Chatbot

Ein normaler Chat mit Claude oder ChatGPT funktioniert so. Du schickst eine Nachricht, das Modell antwortet. Ein Aufruf, eine Antwort, fertig. Die Kosten sind überschaubar, weil nur einmal gelesen und einmal geschrieben wird.

Ein Agent zerlegt eine Aufgabe in Schritte. Er plant, recherchiert, führt Werkzeuge aus, prüft das Ergebnis, korrigiert und plant neu. Jeder dieser Schritte ist ein eigener Aufruf an das Sprachmodell. Und jeder Aufruf schickt den gesamten bisherigen Verlauf mit, damit der Agent weiß, wo er gerade steht.

Agentische KI bezeichnet KI-Systeme, die Aufgaben eigenständig in mehrere Schritte zerlegen, Werkzeuge aufrufen und Zwischenergebnisse bewerten. Im Unterschied zum einfachen Chat trifft der Agent eigene Entscheidungen über den Ablauf, statt auf jede Eingabe einzeln zu reagieren.

Ein Beispiel. Du bittest einen Coding-Agenten, einen Bug zu fixen. Der Agent liest die Fehlermeldung, durchsucht den Code, identifiziert die betroffene Datei, schreibt einen Fix, testet ihn, stellt fest, dass der Test fehlschlägt, überarbeitet den Fix, testet erneut. Das sind acht bis zwölf Aufrufe an das Sprachmodell. Ein Chatbot hätte einen einzigen gebraucht.

Warum jeder Schritt den nächsten teurer macht

Die Kosten wachsen nicht linear, sondern kumulativ. Das ist der Punkt, den die meisten unterschätzen.

Bei jedem neuen Schritt schickt der Agent den kompletten bisherigen Kontext an das Modell. Die Systemnachricht, alle vorherigen Nachrichten, alle Werkzeug-Ergebnisse, alle Zwischenschritte. Das Modell braucht diesen Kontext, um zu verstehen, was es gerade tut. Aber es bezahlt für jeden Token, der reinkommt. Immer wieder. Eine Nachricht, die fünf Schritte zurückliegt, wird bei jedem weiteren Schritt erneut abgerechnet.

Die Stevens School of Engineering hat das durchgerechnet. Teams unterschätzen die agentische KI Kosten um den Faktor drei bis fünf, weil sie lineares Wachstum annehmen, wo tatsächlich kumulatives Wachstum stattfindet. Wer zehn Schritte einplant und mit zehnfachen Kosten kalkuliert, liegt daneben. Die realen Kosten liegen eher beim Zwanzig- bis Fünfzigfachen.

Dazu kommt ein zweiter Kostentreiber. Output-Token kosten bei den meisten Anbietern drei- bis fünfmal so viel wie Input-Token. Ein Agent, der Code schreibt, Analysen erstellt oder Pläne formuliert, produziert viel Output. Bei Claude Opus 4.6 zahlt man 5 Dollar pro Million Input-Token, aber 25 Dollar pro Million Output-Token. Wer den Unterschied zwischen Input- und Output-Kosten bei KI-APIs noch nie beachtet hat, wird bei agentischen Workflows überrascht.

Agentische KI Kosten in der Praxis

Zahlen sagen mehr als Architekturdiagramme. Hier ein paar dokumentierte Fälle aus dem Frühjahr 2026. Drei Größenordnungen, vom Einzelnutzer bis zum Forschungssetup.

Ein einzelner Entwickler hat seinen Verbrauch mit Claude Code über acht Monate als Hauptwerkzeug ausgewertet: zehn Milliarden Token, umgerechnet über 15.000 Dollar zum API-Preis von Sonnet 4.6. Claude Code ist ein Coding-Agent, der Dateien liest, schreibt, testet und Fehler selbst korrigiert. Jede dieser Aktionen ist ein Schritt in der Kette, jeder Schritt schleppt den vollen Kontext mit. Das war kein Experiment, sondern Alltag.

Noch eindrücklicher ist ein von Anthropic selbst dokumentiertes Demoprojekt. 16 Opus-Agenten arbeiteten zwei Wochen lang parallel an einem in Rust geschriebenen C-Compiler. Über 2.000 Sessions, jeweils mit eigenem Kontextfenster. Die API-Kosten lagen bei rund 20.000 Dollar. Möglich war das nur, weil jeder Agent an einem unabhängigen, fehlgeschlagenen Test arbeitete. Aber die Zahl zeigt, was Multi-Agent-Architektur kostet, wenn man sie ernst meint.

Wer denkt, das sei die Spitze, hat Peter Steinberger noch nicht gehört. Der OpenClaw-Gründer, inzwischen bei OpenAI, lässt für sein Open-Source-Projekt rund 100 Codex-Instanzen permanent parallel laufen. Sie prüfen Pull-Requests, suchen nach Sicherheitslücken, deduplizieren Issues, hören Meetings mit. In 30 Tagen verbrauchten sie 603 Milliarden Token bei 7,6 Millionen API-Anfragen. Die Rechnung: 1,3 Millionen Dollar. Bezahlt von OpenAI selbst, weil Steinberger dort angestellt ist und das Setup als Forschungsinvestition gilt. Die Frage lautet, wie Softwareentwicklung aussieht, wenn Token-Kosten keine Rolle spielen. Eine Antwort hat das Experiment auch geliefert: Allein das Abschalten des Fast Mode würde die Rechnung um 70 Prozent senken.

Was kostet ein einzelner Agentenschritt?

Aktivität	Token (ca.)	Kosten (Sonnet 4.6)
Einfache Chatfrage	500 Input / 200 Output	~0,005 $
Agent liest Datei + antwortet	8.000 Input / 1.500 Output	~0,05 $
Agent-Schritt Nr. 10	40.000 Input / 2.000 Output	~0,15 $
Agent-Schritt Nr. 25	120.000 Input / 3.000 Output	~0,40 $
Komplette Bug-Fix-Session	500.000+ gesamt	5–8 $

Die Tabelle zeigt das Muster. Schritt 10 kostet nicht zehnmal so viel wie Schritt 1, sondern dreißigmal so viel, weil er den gesamten Kontext der ersten neun Schritte mitbezahlt. Jeder einzelne Schritt ist billig. Die Summe ist es nicht.

Warum überall neue Preisstufen auftauchen

Der Kostendruck durch agentische Nutzung verändert die gesamte Preislandschaft. GitHub hat Ende April 2026 angekündigt, Copilot ab Juni auf verbrauchsbasierte Abrechnung umzustellen. Die Pauschale bleibt nominell bestehen (10 Dollar für Pro, 39 Dollar für Pro+), aber was darüber hinausgeht, wird nach Token abgerechnet. Wöchentliche Limits sollen verhindern, dass einzelne Nutzer mit parallelisierten Agenten-Sessions die Infrastruktur überlasten.

Ähnlich bei Anthropic. Die Preisstufen von Claude gehen inzwischen bis 200 Dollar im Monat, und selbst dort stoßen Nutzer mit agentischen Workflows an Grenzen. Der Grund ist simpel. Ein Abo-Preis kalkuliert mit einer bestimmten durchschnittlichen Nutzung. Agenten sprengen diesen Durchschnitt.

Token sind die Abrechnungseinheit von Sprachmodellen. Ein Token entspricht etwa einem Wortfragment, rund 1.000 Token decken eine Textseite ab. Abgerechnet wird getrennt nach Input-Token (was das Modell liest) und Output-Token (was es schreibt), wobei Output drei- bis fünfmal teurer ist.

Portal26, ein Startup für KI-Governance, hat im April 2026 ein Produkt namens Agentic Token Controls gelauncht. Allein die Tatsache, dass es einen Markt für Software gibt, die KI-Agenten am Geldausgeben hindert, zeigt, wo die Branche steht. Die Token-Kosten sind nicht gestiegen. Der Verbrauch ist explodiert.

Wie sich agentische KI Kosten bremsen lassen

Wer Agenten nutzt, kann den Verbrauch nicht eliminieren, aber steuern. Fünf Ansätze, die in der Praxis funktionieren.

Kontext komprimieren. Der größte Kostentreiber ist der wachsende Kontext. Systeme wie Claude Code fassen ältere Schritte zusammen, statt sie vollständig mitzuschleppen. Das spart bei langen Sessions erheblich, ohne dass der Agent den Faden verliert.

Schrittzahl begrenzen. Ein maximales Token-Budget oder eine Obergrenze für die Zahl der Schritte pro Aufgabe verhindert, dass ein Agent in eine Schleife gerät und endlos weitermacht. Für klar umrissene Aufgaben reichen oft zehn Schritte. Wenn nicht, ist womöglich die Aufgabe falsch geschnitten.

Kleinere Modelle für Zwischenschritte. Nicht jeder Schritt braucht das teuerste Modell. Claude Haiku 4.5 kostet pro Token ein Drittel von Sonnet und ein Fünftel von Opus. Für Routineaufrufe wie Dateilisten durchsuchen oder Testergebnisse auswerten reicht das.

Prompt Caching nutzen. Anthropic und OpenAI bieten Caching für Prompts an, die sich wiederholen. Beim Caching zahlt man für bereits verarbeitete Token-Blöcke nur noch zehn Prozent. Agenten profitieren besonders, weil die Systemnachricht und frühe Kontextteile bei jedem Schritt identisch sind. Mehr dazu im Artikel über Token sparen bei KI.

Aufgaben zerlegen statt alles auf einmal. Lieber drei gezielte Agenten-Aufrufe mit klarem Auftrag als ein offener Auftrag, bei dem der Agent selbst herausfinden muss, was gemeint ist. Je präziser die Aufgabe, desto weniger Schritte braucht der Agent.

Preisvergleich — agentische Token-Kosten bei den großen Anbietern

Modell	Input / 1M Token	Output / 1M Token	Caching-Rabatt
Claude Opus 4.6	5,00 $	25,00 $	90 %
Claude Sonnet 4.6	3,00 $	15,00 $	90 %
Claude Haiku 4.5	1,00 $	5,00 $	90 %
GPT-5.5	5,00 $	30,00 $	~90 %
GPT-4.1	2,00 $	8,00 $	verfügbar
Gemini 2.5 Pro	1,25 $	10,00 $	verfügbar

Was das für normale Nutzer bedeutet

Wer ChatGPT oder Claude im normalen Chat nutzt, merkt von alldem wenig. Die Abo-Preise decken den Alltagsverbrauch ab, und ein paar hundert Nachrichten pro Tag sind kein Problem. Aber sobald Agenten ins Spiel kommen, ändert sich die Rechnung. KI-Kosten bewusst zu steuern wird 2026 zur Kernkompetenz, nicht nur für Entwickler.

Die Anbieter reagieren mit neuen Tarifstufen, verbrauchsbasierten Modellen und eingebauten Limits. GitHub Copilot unterscheidet bereits zwischen normalen und »Premium«-Anfragen, wobei agentische Aufrufe als Premium zählen. Anthropic drosselt Pro-Nutzer, die zu viele Agenten-Sessions parallel laufen lassen. Und OpenAI hat für Codex eine Container-Gebühr von 12 Cent pro 4-GB-Task eingeführt, zusätzlich zu den Token-Kosten.

Die gute Nachricht: Die Token-Preise selbst fallen weiter. Was 2024 noch 30 Dollar pro Million Output-Token kostete, liegt 2026 bei 15 bis 25 Dollar. Nur wird das von der steigenden Nutzungsintensität mehr als aufgefressen. Die Token werden billiger. Der Verbrauch wächst schneller.

Agentische KI ist nicht zu teuer, um sie zu nutzen. Sie ist zu teuer, um sie gedankenlos zu nutzen. Wer versteht, warum die Kosten entstehen, kann sie kontrollieren. Wer es nicht tut, wird womöglich von seiner nächsten API-Rechnung überrascht. (lk)