Grundlagen

Wie effektiv ist KI wirklich?

Anthropic hat zum ersten Mal gemessen, wie oft Claude Aufgaben tatsächlich löst. Die Zahlen erden den Hype, aber machen Mut, wenn man sie richtig liest.

28. Juni 20268 Min. Lesezeit

Über KI bei der Arbeit hört man meistens zwei Geschichten. In der einen erledigt sie bald alles von allein, in der anderen taugt sie zu nichts. Anthropic hat zum ersten Mal belastbare Zahlen auf den Tisch gelegt, wie oft Claude eine Aufgabe tatsächlich löst. Das Ergebnis liegt zwischen den beiden Lagern, und es macht Mut, wenn man genau hinschaut.

Was Anthropic gemessen hat

Die Daten stammen aus dem vierten Economic Index Report (15.01.2026). Anthropic hat dafür rund eine Million Claude.ai-Unterhaltungen und eine Million API-Mitschnitte aus dem November 2025 ausgewertet, also kurz vor dem Release von Opus 4.5. Es ist die erste systematische Antwort des Unternehmens auf eine Frage, die in der Hype-Debatte erstaunlich selten gestellt wird: Wie oft kommt eigentlich etwas Brauchbares heraus?

Neu ist dabei die Kennzahl "task success", also ob Claude eine Aufgabe wirklich abschließt, statt nur plausibel zu klingen. Eine Einschränkung gleich vorweg: Die Zahlen sind eine Momentaufnahme von Ende 2025. Neuere Modelle dürften besser abschneiden. Der Wert liegt nicht in der zweiten Nachkommastelle, sondern in den Mustern.

Je länger die Aufgabe, desto öfter scheitert KI

Das deutlichste Muster: Komplexe Aufgaben sparen mehr Zeit, gehen aber häufiger schief. Über die API gemessen löst Claude kurze Aufgaben noch zuverlässig, bei langen sinkt die Trefferquote spürbar.

Aufgabenlänge (geschätzte Arbeitszeit für einen Menschen)	Erfolgsrate über die API
unter 1 Stunde	rund 60 %
über 5 Stunden	rund 45 %
50-%-Schwelle	bei etwa 3,5 Stunden

Interessant wird es im direkten Vergleich mit Claude.ai, also der Chat-Nutzung. Dort fällt die Erfolgsrate viel langsamer. Die 50-%-Marke wird laut Anthropic erst bei rund 19 Stunden Arbeitsaufwand erreicht, statt bei 3,5 Stunden über die API. Der Grund ist kein besseres Modell, sondern die Arbeitsweise: Im Chat steuert der Mensch laufend nach, korrigiert Zwischenstände und hakt nach. Genau diese Schleife hält die Erfolgsrate oben.

Die halbierte Prognose ist keine schlechte Nachricht

Die neuen Erfolgsraten haben Anthropic gezwungen, die eigenen Produktivitätsversprechen nach unten zu korrigieren. Eine frühere Schätzung ging davon aus, dass breite KI-Nutzung das jährliche Produktivitätswachstum in den USA um 1,8 Prozentpunkte heben könnte. Rechnet man die realen Erfolgsraten ein, bleiben davon noch 1,2 Prozentpunkte für die Chat-Nutzung und 1,0 für die API übrig. Berücksichtigt man zusätzlich Engpässe, also Tätigkeiten, die ein Job zwingend braucht und die KI nicht beschleunigt, sinkt der Wert laut the decoder weiter auf 0,6 bis 0,8 Prozentpunkte.

Die Erwartung, die hier zusammenschrumpft, war von Anfang an überzogen. Die lauteste Lesart lautete: KI ersetzt ganze Teams, keine Entwickler mehr, ein Projektleiter und eine Handvoll Agenten erledigen den Rest. Dass diese Rechnung nicht aufgeht, war absehbar. Befeuert wurde sie vor allem vom Marketing der KI-Anbieter selbst, die ein handfestes Interesse an möglichst großen Versprechen haben. Die korrigierte Prognose ist zu einem guten Teil nichts anderes als dieser überzogene Anspruch, der auf ein realistisches Maß zurückfällt.

Das klingt nach Ernüchterung. Anthropic selbst rechnet aber vor, warum das kein Grund zum Trübsalblasen ist: Schon ein Prozentpunkt zusätzliches Produktivitätswachstum pro Jahr würde die USA über ein Jahrzehnt wieder auf das Niveau des Booms der späten 90er und frühen 2000er bringen. Das ist kein Rauschen, das ist ein historisch starker Effekt. Dazu kommt: Die Messung stammt von vor Opus 4.5, und Anthropic erwartet von kommenden Modellen höhere Erfolgsraten. Der Hype war aufgeblasen, der reale Nutzen bleibt groß.

Was sich wirklich rechnet

Das Versprechen suggerierte massive Einsparungen, und an dieser Messlatte muss KI scheitern. Die spannendere Frage ist, wie niedrig die Hürde liegt, ab der sich KI rechnet. Sie liegt überraschend niedrig.

Ein Beispiel mit runden Zahlen. Ein Entwickler kostet brutto rund 5.000 Euro im Monat, mit Lohnnebenkosten etwa 6.200 Euro. Wer von einem eingesparten Team aus drei Entwicklern träumt, redet über fast 20.000 Euro im Monat. Gegen diese Summe hätte selbst das große Claude-Max-Abo für rund 200 Euro einen absurd hohen ROI, sogar wenn die KI das Team nur zu zwei Dritteln ersetzt. Nur ist dieses Szenario die Fata Morgana, nicht der Alltag.

Der Alltag rechnet sich viel einfacher. Setzt man einen Vollkosten-Stundensatz von 36 Euro an, zahlen schon sechs gesparte Stunden im Monat das teuerste Claude-Modell. Sechs Stunden, das ist gut eine Stunde pro Woche. Anders gesagt: Ein Entwickler muss mit KI nur ein paar Prozent produktiver werden, und die Investition ist wieder drin. Dafür muss niemand wegrationalisiert werden.

Das ist der eigentliche Punkt hinter den nüchternen Zahlen. KI muss keine Teams ersetzen, um sich zu lohnen. Sie muss den Arbeitstag nur ein Stück leichter machen, und diese Schwelle ist niedrig genug, dass die meisten sie längst überschreiten.

Zusammenarbeiten schlägt delegieren

Die für die Praxis nützlichste Erkenntnis steckt in einer Trendwende. Anthropic unterscheidet zwei Nutzungsarten: "Augmentation", bei der man gemeinsam mit Claude arbeitet, iteriert und Feedback einholt, und "Automation", bei der man eine Aufgabe komplett abgibt. Im August 2025 hatte das Abgeben das gemeinsame Arbeiten erstmals überholt. Dieser Trend hat sich umgekehrt: Augmentation ist auf 52 % gestiegen, das vollständige Delegieren auf 45 % gefallen. Der Anteil der Unterhaltungen, in denen Nutzer eine Aufgabe nur hinwerfen und ohne Rückfrage ein Ergebnis erwarten, ist von 39 auf 32 % gesunken.

Anthropic vermutet, dass Funktionen wie das Erstellen von Dateien, dauerhaftes Gedächtnis und anpassbare Skills zu dieser engeren Zusammenarbeit führen. Der Punkt für den Arbeitsalltag ist aber unabhängig vom Tooling: Die 19 Stunden bei Claude.ai gegenüber 3,5 Stunden über die API sind der Beleg dafür, dass Mitdenken und Nachsteuern bei komplexen Aufgaben den Unterschied machen. Wer eine große Aufgabe abfeuert und weggeht, holt das Schlechtere heraus. Wer dranbleibt, korrigiert und in Etappen arbeitet, das Bessere.

Bessere Prompts, bessere Antworten

Ein zweiter Befund unterstreicht das. Anthropic hat gemessen, wie viele Jahre formale Bildung nötig sind, um eine Nutzereingabe zu verstehen, und wie viele für Claudes Antwort. Die Korrelation zwischen beiden liegt über 0,92, sowohl zwischen Ländern als auch zwischen US-Bundesstaaten. Im Klartext: Claude passt sein Antwortniveau an das Eingabeniveau an. Wer präzise, fachlich saubere Anfragen stellt, bekommt entsprechend gehaltvolle Antworten. Wer simpel fragt, bekommt Simples.

Das ist eine gute Nachricht, weil es eine Stellschraube ist, die man selbst in der Hand hat. In gute Prompts zu investieren, ist kein Beiwerk, sondern hebt messbar die Qualität dessen, was zurückkommt. Wie das konkret geht, steht in Prompt Engineering 2026.

Eine Kehrseite nennt der Bericht auch: Wenn KI die anspruchsvolleren Teilaufgaben übernimmt, bleibt für Menschen mitunter die weniger qualifizierte Arbeit übrig, ein "Deskilling". Anthropic nennt das Beispiel von Reisebüros, die das Planen an die KI verlieren und vor allem Ticketing und Zahlung behalten. Es gibt aber auch das Gegenteil: Hausverwaltungen, denen die Buchhaltung abgenommen wird, sodass mehr Zeit für Vertragsverhandlungen und Stakeholder bleibt. Welche Richtung es nimmt, hängt davon ab, wie man die Arbeit zuschneidet.

Fazit

Die ehrlichen Zahlen entkräften nicht den Fall für KI, sie schärfen ihn. Claude ist auf kurzen, klar umrissenen Aufgaben zuverlässig und wird dramatisch nützlicher, sobald man iteriert statt blind zu delegieren. Der Produktivitätsgewinn ist bescheidener als die großen Versprechen, aber nach Anthropics eigener Mathematik immer noch auf der Skala eines Wirtschaftsbooms. Realistische Erwartungen und die richtige Arbeitsweise sind genau das, was aus diesem Potenzial echte Ergebnisse macht.

Eine andere Perspektive auf dieselbe Frage, warum Produktivitätszahlen so schwer zu fassen sind, liefert KI-Produktivität: Warum die Zahlen trügen. Und worauf bei der Qualität des erzeugten Codes zu achten ist, steht in KI-Code: Fast richtig reicht nicht.

Quellen

Anthropic Economic Index, Report Januar 2026 - Originalbericht mit Erfolgsraten, Produktivitätsschätzungen und Nutzungsmustern
The Decoder: Anthropic cuts AI productivity forecasts in half - Einordnung der Zahlen
Datensatz auf Hugging Face - die zugrunde liegenden Daten zum Nachrechnen