KI-Produktivität: Warum die Zahlen trügen

Macht KI Entwickler schneller oder langsamer? Die METR-Studie zeigt vor allem eines: Warum einfache Antworten auf diese Frage nicht funktionieren.

"KI macht Entwickler 19 % langsamer"

Diese Schlagzeile ging Anfang 2025 durch die Tech-Welt. Die Forschungsorganisation METR hatte erfahrene Open-Source-Entwickler bei ihrer täglichen Arbeit gemessen und ein überraschendes Ergebnis gefunden: Mit KI-Tools brauchten sie im Schnitt 19 % länger für ihre Aufgaben. Und das, obwohl die Entwickler selbst eine Beschleunigung von 24 % erwartet hatten.

Die Studie wurde peer-reviewed veröffentlicht und ist methodisch solide. Die Stichprobe bestand aus erfahrenen Entwicklern (Median: 10 Jahre Open-Source-Erfahrung), die an ihren eigenen Projekten arbeiteten. Keine Studenten, keine künstlichen Aufgaben.

Für KI-Skeptiker war das ein Fest. Für KI-Enthusiasten ein Ärgernis. Aber die interessantere Geschichte steckt in dem, was danach passierte.

Der Replikationsversuch scheitert - aber nicht wie erwartet

Ende 2025 versuchte METR, die Studie zu wiederholen. 57 Entwickler, 143 Repositories, über 800 Aufgaben, $50/Stunde Vergütung. Zufällige Zuweisung: Mal mit KI, mal ohne. Alles nach Lehrbuch.

Die Rohergebnisse: Der Slowdown war deutlich kleiner als in der ersten Studie. Entwickler aus der Originalstudie waren noch 18 % langsamer mit KI. Neu rekrutierte Entwickler nur noch 4 %. Aber die Forscher trauen ihren eigenen Zahlen nicht mehr. Und ihre Begründung ist aufschlussreicher als jedes Ergebnis.

Warum die Messung nicht mehr funktioniert

METR beschreibt drei fundamentale Probleme:

1. Entwickler weigern sich, ohne KI zu arbeiten. 30-50 % der Teilnehmer haben bewusst Aufgaben vermieden, bei denen KI besonders stark helfen würde. Der Grund: Wenn das Los auf "ohne KI" fällt, wollten sie diese Aufgabe nicht ohne Unterstützung machen. Ein Developer hat keine einzige Aufgabe ohne KI abgeschlossen.

METR schreibt dazu: "Ein wachsender Anteil der Entwickler sagt, dass sie nicht mal die Hälfte ihrer Arbeit ohne KI machen wollen - obwohl unsere Studie $50 pro Stunde zahlt."

2. Agentic Tools machen Zeitmessung sinnlos. Wenn Claude Code oder Codex im Hintergrund arbeiten, tun Entwickler in der Zwischenzeit andere Dinge. Wie misst du die "Arbeitszeit" an einer Aufgabe, wenn ein Agent sie bearbeitet während du E-Mails liest?

3. Die Aufgaben ändern sich. Entwickler passen ihre Aufgabenwahl an KI-Stärken an. Sie nehmen andere Aufgaben an, wenn sie wissen, dass KI verfügbar ist. Damit vergleichst du nicht mehr "gleiche Aufgabe mit vs. ohne KI", sondern "unterschiedliche Aufgaben".

Was das für die Praxis bedeutet

Die METR-Studie zeigt nicht, dass KI Entwickler langsamer macht. Sie zeigt, dass die Frage falsch gestellt ist.

KI-Tools verändern nicht nur die Geschwindigkeit, sondern die Art der Arbeit selbst:

  • Andere Aufgaben werden möglich. Entwickler nehmen Refactorings an, die sie ohne KI nicht angefasst hätten. Die Aufgabe dauert vielleicht länger als ein Quick-Fix, aber das Ergebnis ist besser.
  • Die Qualität ändert sich. Mehrere Teilnehmer lieferten mit KI umfangreichere Tests und bessere Dokumentation. Das kostet Zeit, ist aber kein Produktivitätsverlust.
  • Der Workflow ändert sich. Mit agentenbasierten Tools wird Entwicklung asynchron. Du startest einen Agent, arbeitest an etwas anderem, prüfst das Ergebnis. "Wie lange hat die Aufgabe gedauert?" wird zur philosophischen Frage.

Die unbequeme Wahrheit über Produktivitätsmessung

Wenn jemand dir erzählt, KI mache Entwickler "X % schneller" oder "Y % langsamer", frag nach der Methodik. Die ehrlichste Antwort der besten Forscher auf diesem Gebiet ist aktuell: "Wir wissen es nicht genau, und es wird schwieriger, es zu messen."

Das heißt nicht, dass KI-Tools nutzlos sind. Es heißt, dass simple Metriken wie "Zeit pro Aufgabe" die Realität nicht abbilden. Wer KI-Produktivität in seinem Team messen will, sollte breiter schauen:

  • Welche Aufgaben werden jetzt angegangen, die vorher liegen blieben?
  • Wie hat sich die Code-Qualität verändert (Reviews, Bug-Rate)?
  • Wie fühlt sich die Arbeit an? (Ja, das ist eine valide Metrik)

Für Projektleiter: Wenn euer Management "KI-Produktivitätszahlen" fordert, ist diese Studie ein gutes Argument für differenziertere KPIs. Story Points pro Sprint werden nicht aussagekräftiger, nur weil ein Agent mitarbeitet. Schaut auf Durchlaufzeit, Qualität und welche Aufgaben neu machbar werden.

Quellen