
Laut McKinsey-Erhebung 2025 nutzen 88% aller Unternehmen KI in mindestens einer Funktion. Nur 23% skalieren einen KI-Agenten. Der Stanford AI Index 2026 verzeichnet zwar bei Agenten-Benchmarks einen Sprung von 12 auf 66% Erfolgsquote, doch der tatsächliche Produktiv-Einsatz bleibt in den meisten Geschäftsbereichen einstellig. Die Lücke dazwischen ist keine Wachstumskurve. Sie ist viel eher ein Realitätscheck.
Seit Anfang 2025 läuft die Branche auf sie zu, als gäbe es sonst nichts mehr. Agenten. Autonome KI-Systeme, die eigenständig planen, Werkzeuge benutzen, Entscheidungen treffen. Jeder große Anbieter hat ein Agenten-Produkt, jede Keynote erzählt von digitalen Mitarbeitern, die unsere Aufgaben übernehmen. Agenten gehören zu den bestimmenden KI-Trends 2026. Aber was, wenn die Grundannahme nicht stimmt? Was, wenn die meisten Aufgaben gar keinen Agenten brauchen?
Inhaltsverzeichnis
Was KI-Agenten versprechen
Die Idee klingt verlockend. Du gibst dem System eine Aufgabe, und es erledigt den Rest. Flug buchen, Bericht schreiben, Daten zusammentragen, E-Mail verfassen, alles in einem Durchgang. Der Agent zerlegt das Problem in Teilschritte, wählt Werkzeuge, prüft Ergebnisse und liefert ab. Kein Copy-Paste zwischen Apps, keine manuelle Orchestrierung.
Ein KI-Agent ist ein System auf Basis eines Sprachmodells, das eigenständig mehrstufige Aufgaben bearbeitet. Anders als ein Chatbot plant er Teilschritte, greift auf externe Werkzeuge zu und trifft Zwischenentscheidungen, ohne dass ein Mensch jeden Schritt freigibt.
OpenAI, Google, Anthropic, Microsoft, alle haben 2025 und 2026 Agenten-Frameworks vorgestellt. Anthropic brachte das Model Context Protocol (MCP), eine Art USB-C für KI, das Agenten an externe Tools anbindet. Google integrierte Agenten in Workspace. Microsoft baute sie in Copilot Studio ein. Die Botschaft war überall dieselbe. Agenten sind die nächste Stufe.
Und die Investitionen folgten. Laut einer Gartner-Erhebung vom Januar 2025 hatten 19 Prozent der befragten Unternehmen bereits erheblich in Agentic AI investiert, weitere 42 Prozent konservativ. Nur 8 Prozent gar nicht.
Das Problem ist nicht das Geld. Das Problem ist die Mathematik.
Das Compound-Error-Problem — warum 85% nicht reichen
Ein KI-Agent, der bei jedem Einzelschritt 85 Prozent Trefferquote erreicht, klingt brauchbar. Die meisten aktuellen Modelle liegen in diesem Bereich. Manche schaffen 90%, bei einfachen Aufgaben auch 95%.
Aber ein Agent arbeitet nicht in Einzelschritten. Er verkettet sie. Und genau da wird es unangenehm.
Bei einem Workflow mit zehn Schritten multipliziert sich die Fehlerwahrscheinlichkeit. 85% Genauigkeit pro Schritt ergibt eine Gesamterfolgsquote von rund 20% . Das ist im Kern ein mathematisches Problem, kein technisches. Selbst wenn die Modelle besser werden, bleibt die Multiplikation dieselbe.
Der APEX-Agents-Benchmark von 2026 bestätigt das Bild. Selbst die besten Modelle erledigten nur 24 Prozent der gestellten Praxisaufgaben beim ersten Anlauf. Nicht weil sie einzelne Schritte nicht konnten. Sondern weil sie die Abfolge nicht durchhielten.
Traditionelle Software hat dieses Problem nicht. Derselbe Input erzeugt denselben Output. Bei einem Sprachmodell ist jeder Aufruf ein Würfelwurf. Und bei zehn Würfen hintereinander braucht man nicht viel Fantasie, um sich vorzustellen, was passiert.
Woran KI-Agenten in der Praxis scheitern
Das Matheproblem ist nur der Anfang. Im Alltag kommen Hürden dazu, die in Keynotes selten vorkommen.
Benchmarks messen das Falsche. Die meisten Agenten-Tests prüfen Programmieraufgaben. Laut einer Analyse von Basic Thinking machen Coding und Mathematik nur 7,6 Prozent der Gesamtbeschäftigung auf dem US-Arbeitsmarkt aus. Was ein Agent in einer kontrollierten Coding-Umgebung leistet, sagt wenig darüber aus, wie er mit unstrukturierten Meetings, vagen Anweisungen oder widersprüchlichen Informationen umgeht.
Wartung frisst das Budget. Ein erheblicher Teil des Automatisierungsbudgets flößt inzwischen in den laufenden Betrieb bestehender Agenten. Prompts nachkalibrieren, Tool-Aufrufe debuggen, nach Modell-Updates alles neu testen. Ein Agent ist kein Set-and-Forget-System. Er ist eine dauerhafte Baustelle.
Modell-Updates brechen alles. Ein neues Release des zugrundeliegenden Sprachmodells kann reichen, um einen funktionierenden Agenten lahmzulegen. AscentCore dokumentierte im Mai 2026, wie ein einziges Update eine komplette Agenten-Pipeline unbrauchbar machte. Nicht wegen eines Fehlers im Modell, sondern wegen minimaler Verhaltensänderungen.
Kontext und Empathie fehlen. Agenten scheitern regelmäßig an Aufgaben, die emotionale Einordnung oder feines Kontextverständnis verlangen. KI neigt ohnehin dazu, Nutzern nach dem Mund zu reden, statt unabhängig zu urteilen. Ein Agent, der das in einer mehrstufigen Entscheidungskette tut, verstärkt das Problem mit jedem Schritt.
Fehler breiten sich aus. Je mehr Agenten miteinander kommunizieren, desto unübersichtlicher wird die Fehlerausbreitung. KI-Agenten können Fehler möglicherweise sogar wie Krankheiten untereinander verbreiten, wenn sie in vernetzten Systemen arbeiten. Was bei einem einzelnen Agenten ein Stolperer ist, wird im Multi-Agenten-System womöglich eine Kettenreaktion.
Gartner-Analystin Anushree Verma brachte die Lage im Juni 2025 auf den Punkt. Die meisten Agentic-AI-Projekte seien »Frühphasen-Experimente«, getrieben von Hype und häufig falsch eingesetzt. Die Prognose des Unternehmens lautet, dass über 40% dieser Projekte bis Ende 2027 eingestellt werden.
Agent, Copilot, Workflow im Vergleich
| KI-Agent | Copilot | Workflow-Tool | |
|---|---|---|---|
| Steuerung | Autonom, plant selbst | Mensch entscheidet, KI assistiert | Regelbasiert, fest definiert |
| Fehlerverhalten | Fehler kumulieren sich | Mensch fängt Fehler ab | Deterministisch, vorhersagbar |
| Flexibilität | Hoch, aber unzuverlässig | Mittel, aber steuerbar | Gering, aber robust |
| Wartung | Hoch (Prompt-Pflege, Updates) | Mittel | Gering nach Einrichtung |
| Bestes Einsatzfeld | Strukturierte, messbare Routinen | Kreative und analytische Arbeit | Wiederkehrende Prozesse |
| Reifegrad 2026 | Experimentell bis früh produktiv | Produktiv | Etabliert |
Die Alternativen, über die niemand redet
Agenten bekommen die Schlagzeilen. Aber im Hintergrund arbeiten Ansätze, die womöglich mehr bewirken, weniger kosten und zuverlässiger laufen. Nur sind sie eben nicht so fotogen.
Copilots statt Autopilot. Ein Copilot schlägt vor, der Mensch entscheidet. Das klingt nach weniger, ist aber in der Praxis oft mehr. Wer einen KI-Assistenten als Sparringspartner nutzt, behält die Kontrolle und profitiert trotzdem von der Geschwindigkeit. GitHub Copilot, Claude in Cowork, Gemini in Google Docs, alle funktionieren nach diesem Prinzip. Und alle sind produktiv im Einsatz, nicht nur als Pilotprojekt.
Schmale Workflow-Automatisierung. Tools wie n8n oder Make verbinden Apps, führen Schritte in fester Reihenfolge aus und können an einzelnen Stellen ein Sprachmodell einbinden. Kein Agent, der alles selbst plant. Ein klar definierter Ablauf, der an einer Stelle KI nutzt und sonst klassische Software. Das ist nicht glamourös. Aber es läuft.
RAG für Wissensarbeit. Retrieval-Augmented Generation holt sich Kontext aus eigenen Dokumenten, bevor das Modell antwortet. Kein Agent, der selbständig recherchiert, sondern ein System, das gezielt nachschlägt. Für Studium, Recherche und Alltagsfragen ist das oft die bessere Lösung, weil die Fehlerquelle »falsches Werkzeug gewählt« komplett entfällt.
Human-in-the-Loop. Vermutlich der klügste Ansatz. Der Agent arbeitet, aber an definierten Stellen prüft ein Mensch das Zwischenergebnis, bevor es weitergeht. Das halbiert die Compound-Error-Rate, weil Fehler nicht mehr ungebremst weiterlaufen. In der Praxis ist das die Architektur, die bei KI-API-gestützten Workflows am häufigsten tatsächlich funktioniert.
Wann ein KI-Agent tatsächlich Sinn ergibt
KI-Agenten sind nicht nutzlos. Sie sind überschätzt. Das ist ein gehöriger Unterschied.
Wo Agenten funktionieren, sind die Bedingungen fast immer dieselben. Die Aufgabe ist eng definiert, die Schritte überschaubar, die Erfolgskriterien messbar und die Konsequenzen eines Fehlers begrenzt. IT-Support-Tickets bearbeiten, Standardanfragen im Kundendienst beantworten, Rechnungsdaten extrahieren und zuordnen. Nicht die Aufgaben, die Keynote-Applaus bekommen. Aber die, bei denen das Verhältnis von Kosten und Nutzen stimmt.
Wer einen Agenten auf ein klar umrissenes Problem mit drei bis fünf Schritten ansetzt, bekommt plausible Ergebnisse. Wer ihn auf einen offenen, zehnstufigen Workflow loslässt, bekommt Ärger.
Der entscheidende Test ist simpel. Würdest du einem neuen Praktikanten die Aufgabe ohne Rückfragen überlassen? Wenn nein, solltest du es auch keinem Agenten gestatten.
Der Compound-Error-Effekt bezeichnet das Phänomen, dass sich kleine Fehlerwahrscheinlichkeiten bei mehrstufigen Prozessen multiplizieren. Ein System mit 90 Prozent Genauigkeit pro Schritt erreicht bei zehn verketteten Schritten nur noch rund 35 Prozent Gesamterfolg.
Die Zukunft der KI liegt womöglich nicht in Agenten, die alles allein erledigen. Sondern in Systemen, die wissen, wann sie fragen müssen. Ein Schritt zurück? Vielleicht, aber es wäre mehr als das, was die meisten Agenten heute liefern. (lk)