KI-Agenten — alle wollen sie, die wenigsten brauchen sie

Laut McKinsey-Erhebung 2025 nutzen 88% aller Unternehmen KI in mindestens einer Funktion. Nur 23% skalieren einen KI-Agenten. Der Stanford AI Index 2026 verzeichnet zwar bei Agenten-Benchmarks einen Sprung von 12 auf 66% Erfolgsquote, doch der tatsächliche Produktiv-Einsatz bleibt in den meisten Geschäftsbereichen einstellig. Die Lücke dazwischen ist keine Wachstumskurve. Sie ist viel eher ein Realitätscheck.

KI-News Branche Cloudflare will KI-Suchmaschinen für jede genutzte Antwort zahlen lassen vor 41 Minuten

Seit Anfang 2025 läuft die Branche auf sie zu, als gäbe es sonst nichts mehr. Agenten. Autonome KI-Systeme, die eigenständig planen, Werkzeuge benutzen, Entscheidungen treffen. Jeder große Anbieter hat ein Agenten-Produkt, jede Keynote erzählt von digitalen Mitarbeitern, die unsere Aufgaben übernehmen. Agenten gehören zu den bestimmenden KI-Trends 2026. Aber was, wenn die Grundannahme nicht stimmt? Was, wenn die meisten Aufgaben gar keinen Agenten brauchen?

Inhaltsverzeichnis

Was KI-Agenten versprechen

Die Idee klingt verlockend. Du gibst dem System eine Aufgabe, und es erledigt den Rest. Flug buchen, Bericht schreiben, Daten zusammentragen, E-Mail verfassen, alles in einem Durchgang. Der Agent zerlegt das Problem in Teilschritte, wählt Werkzeuge, prüft Ergebnisse und liefert ab. Kein Copy-Paste zwischen Apps, keine manuelle Orchestrierung.

Ein KI-Agent ist ein System auf Basis eines Sprachmodells, das eigenständig mehrstufige Aufgaben bearbeitet. Anders als ein Chatbot plant er Teilschritte, greift auf externe Werkzeuge zu und trifft Zwischenentscheidungen, ohne dass ein Mensch jeden Schritt freigibt.

OpenAI, Google, Anthropic, Microsoft, alle haben 2025 und 2026 Agenten-Frameworks vorgestellt. Anthropic brachte das Model Context Protocol (MCP), eine Art USB-C für KI, das Agenten an externe Tools anbindet. Google integrierte Agenten in Workspace. Microsoft baute sie in Copilot Studio ein. Die Botschaft war überall dieselbe. Agenten sind die nächste Stufe.

Und die Investitionen folgten. Laut einer Gartner-Erhebung vom Januar 2025 hatten 19 Prozent der befragten Unternehmen bereits erheblich in Agentic AI investiert, weitere 42 Prozent konservativ. Nur 8 Prozent gar nicht.

Das Problem ist nicht das Geld. Das Problem ist die Mathematik.

Das Compound-Error-Problem — warum 85% nicht reichen

Ein KI-Agent, der bei jedem Einzelschritt 85 Prozent Trefferquote erreicht, klingt brauchbar. Die meisten aktuellen Modelle liegen in diesem Bereich. Manche schaffen 90%, bei einfachen Aufgaben auch 95%.

Aber ein Agent arbeitet nicht in Einzelschritten. Er verkettet sie. Und genau da wird es unangenehm.

Bei einem Workflow mit zehn Schritten multipliziert sich die Fehlerwahrscheinlichkeit. 85% Genauigkeit pro Schritt ergibt eine Gesamterfolgsquote von rund 20% . Das ist im Kern ein mathematisches Problem, kein technisches. Selbst wenn die Modelle besser werden, bleibt die Multiplikation dieselbe.

Der APEX-Agents-Benchmark von 2026 bestätigt das Bild. Selbst die besten Modelle erledigten nur 24 Prozent der gestellten Praxisaufgaben beim ersten Anlauf. Nicht weil sie einzelne Schritte nicht konnten. Sondern weil sie die Abfolge nicht durchhielten.

Traditionelle Software hat dieses Problem nicht. Derselbe Input erzeugt denselben Output. Bei einem Sprachmodell ist jeder Aufruf ein Würfelwurf. Und bei zehn Würfen hintereinander braucht man nicht viel Fantasie, um sich vorzustellen, was passiert.

Woran KI-Agenten in der Praxis scheitern

Das Matheproblem ist nur der Anfang. Im Alltag kommen Hürden dazu, die in Keynotes selten vorkommen.

Benchmarks messen das Falsche. Die meisten Agenten-Tests prüfen Programmieraufgaben. Laut einer Analyse von Basic Thinking machen Coding und Mathematik nur 7,6 Prozent der Gesamtbeschäftigung auf dem US-Arbeitsmarkt aus. Was ein Agent in einer kontrollierten Coding-Umgebung leistet, sagt wenig darüber aus, wie er mit unstrukturierten Meetings, vagen Anweisungen oder widersprüchlichen Informationen umgeht.

Wartung frisst das Budget. Ein erheblicher Teil des Automatisierungsbudgets flößt inzwischen in den laufenden Betrieb bestehender Agenten. Prompts nachkalibrieren, Tool-Aufrufe debuggen, nach Modell-Updates alles neu testen. Ein Agent ist kein Set-and-Forget-System. Er ist eine dauerhafte Baustelle.

Modell-Updates brechen alles. Ein neues Release des zugrundeliegenden Sprachmodells kann reichen, um einen funktionierenden Agenten lahmzulegen. AscentCore dokumentierte im Mai 2026, wie ein einziges Update eine komplette Agenten-Pipeline unbrauchbar machte. Nicht wegen eines Fehlers im Modell, sondern wegen minimaler Verhaltensänderungen.

Kontext und Empathie fehlen. Agenten scheitern regelmäßig an Aufgaben, die emotionale Einordnung oder feines Kontextverständnis verlangen. KI neigt ohnehin dazu, Nutzern nach dem Mund zu reden, statt unabhängig zu urteilen. Ein Agent, der das in einer mehrstufigen Entscheidungskette tut, verstärkt das Problem mit jedem Schritt.

Fehler breiten sich aus. Je mehr Agenten miteinander kommunizieren, desto unübersichtlicher wird die Fehlerausbreitung. KI-Agenten können Fehler möglicherweise sogar wie Krankheiten untereinander verbreiten, wenn sie in vernetzten Systemen arbeiten. Was bei einem einzelnen Agenten ein Stolperer ist, wird im Multi-Agenten-System womöglich eine Kettenreaktion.

Gartner-Analystin Anushree Verma brachte die Lage im Juni 2025 auf den Punkt. Die meisten Agentic-AI-Projekte seien »Frühphasen-Experimente«, getrieben von Hype und häufig falsch eingesetzt. Die Prognose des Unternehmens lautet, dass über 40% dieser Projekte bis Ende 2027 eingestellt werden.

Agent, Copilot, Workflow im Vergleich

	KI-Agent	Copilot	Workflow-Tool
Steuerung	Autonom, plant selbst	Mensch entscheidet, KI assistiert	Regelbasiert, fest definiert
Fehlerverhalten	Fehler kumulieren sich	Mensch fängt Fehler ab	Deterministisch, vorhersagbar
Flexibilität	Hoch, aber unzuverlässig	Mittel, aber steuerbar	Gering, aber robust
Wartung	Hoch (Prompt-Pflege, Updates)	Mittel	Gering nach Einrichtung
Bestes Einsatzfeld	Strukturierte, messbare Routinen	Kreative und analytische Arbeit	Wiederkehrende Prozesse
Reifegrad 2026	Experimentell bis früh produktiv	Produktiv	Etabliert

Die Alternativen, über die niemand redet

Agenten bekommen die Schlagzeilen. Aber im Hintergrund arbeiten Ansätze, die womöglich mehr bewirken, weniger kosten und zuverlässiger laufen. Nur sind sie eben nicht so fotogen.

Copilots statt Autopilot. Ein Copilot schlägt vor, der Mensch entscheidet. Das klingt nach weniger, ist aber in der Praxis oft mehr. Wer einen KI-Assistenten als Sparringspartner nutzt, behält die Kontrolle und profitiert trotzdem von der Geschwindigkeit. GitHub Copilot, Claude in Cowork, Gemini in Google Docs, alle funktionieren nach diesem Prinzip. Und alle sind produktiv im Einsatz, nicht nur als Pilotprojekt.

Schmale Workflow-Automatisierung. Tools wie n8n oder Make verbinden Apps, führen Schritte in fester Reihenfolge aus und können an einzelnen Stellen ein Sprachmodell einbinden. Kein Agent, der alles selbst plant. Ein klar definierter Ablauf, der an einer Stelle KI nutzt und sonst klassische Software. Das ist nicht glamourös. Aber es läuft.

RAG für Wissensarbeit. Retrieval-Augmented Generation holt sich Kontext aus eigenen Dokumenten, bevor das Modell antwortet. Kein Agent, der selbständig recherchiert, sondern ein System, das gezielt nachschlägt. Für Studium, Recherche und Alltagsfragen ist das oft die bessere Lösung, weil die Fehlerquelle »falsches Werkzeug gewählt« komplett entfällt.

Human-in-the-Loop. Vermutlich der klügste Ansatz. Der Agent arbeitet, aber an definierten Stellen prüft ein Mensch das Zwischenergebnis, bevor es weitergeht. Das halbiert die Compound-Error-Rate, weil Fehler nicht mehr ungebremst weiterlaufen. In der Praxis ist das die Architektur, die bei KI-API-gestützten Workflows am häufigsten tatsächlich funktioniert.

Wann ein KI-Agent tatsächlich Sinn ergibt

KI-Agenten sind nicht nutzlos. Sie sind überschätzt. Das ist ein gehöriger Unterschied.

Wo Agenten funktionieren, sind die Bedingungen fast immer dieselben. Die Aufgabe ist eng definiert, die Schritte überschaubar, die Erfolgskriterien messbar und die Konsequenzen eines Fehlers begrenzt. IT-Support-Tickets bearbeiten, Standardanfragen im Kundendienst beantworten, Rechnungsdaten extrahieren und zuordnen. Nicht die Aufgaben, die Keynote-Applaus bekommen. Aber die, bei denen das Verhältnis von Kosten und Nutzen stimmt.

Wer einen Agenten auf ein klar umrissenes Problem mit drei bis fünf Schritten ansetzt, bekommt plausible Ergebnisse. Wer ihn auf einen offenen, zehnstufigen Workflow loslässt, bekommt Ärger.

Der entscheidende Test ist simpel. Würdest du einem neuen Praktikanten die Aufgabe ohne Rückfragen überlassen? Wenn nein, solltest du es auch keinem Agenten gestatten.

Der Compound-Error-Effekt bezeichnet das Phänomen, dass sich kleine Fehlerwahrscheinlichkeiten bei mehrstufigen Prozessen multiplizieren. Ein System mit 90 Prozent Genauigkeit pro Schritt erreicht bei zehn verketteten Schritten nur noch rund 35 Prozent Gesamterfolg.

Die Zukunft der KI liegt womöglich nicht in Agenten, die alles allein erledigen. Sondern in Systemen, die wissen, wann sie fragen müssen. Ein Schritt zurück? Vielleicht, aber es wäre mehr als das, was die meisten Agenten heute liefern. (lk)