Bist du der Flaschenhals? OpenAIs Erzählung
OpenAI erklärt die menschliche Aufmerksamkeit zum Engpass und baut selbstverwaltende Agenten. Die Entwicklerdaten erzählen eine andere Geschichte.
Es gibt eine neue Erzählung in der KI-Branche, und sie ist subtil genug, dass man sie leicht überhört. Sie geht so: Die Modelle sind längst gut genug. Was den Nutzen bremst, seid ihr. Eure Aufmerksamkeit, eure Review-Kapazität, eure Gewohnheit, jede Zeile noch mal anzusehen. Der Mensch ist der Flaschenhals.
OpenAI-Produktchefin Fidji Simo hat das Framing Anfang des Jahres gesetzt. In ihrem Beitrag vom 5. Januar 2026 schreibt sie: "AI models are capable of far more than how most people experience them day to day, and 2026 is about closing that gap" (Simo). Die Lücke liegt also bei den Menschen und der Produktgestaltung, nicht beim Modell. Wenige Monate später wurde aus der These ein System.
Symphony: wenn Tickets sich selbst abarbeiten
Ende April 2026 hat OpenAI "Symphony" als Open-Source-Spezifikation auf GitHub veröffentlicht. Die Begründung im Ankündigungstext ist bemerkenswert offen: "The agents were fast, but we had a system bottleneck: human attention" (The Decoder). Die Entwickler konnten drei bis fünf Codex-Sitzungen parallel steuern, danach wurde das ständige Hin und Her zum Bremsklotz.
Symphony löst das, indem es den Menschen aus der Schleife nimmt. Ein Daemon pollt einen Task-Tracker, aktuell Linear. Jedes Ticket bekommt ein isoliertes Workspace, in dem ein Codex-Agent bis zum fertigen Pull Request arbeitet, bei Bedarf eigene Folge-Tickets erstellt und nach einem Absturz automatisch neu startet (InfoQ). Der Mensch verwaltet nur noch das Board, die Agenten erledigen den Rest.
Fairerweise: Symphony schafft die Kontrolle nicht komplett ab. Approval-Regeln für Datei- und Befehlsänderungen bleiben konfigurierbar, ebenso ein Monitoring-Interface. OpenAI nennt es ausdrücklich eine Referenz-Implementierung, kein Produkt, und meldet intern rund 500 Prozent mehr gemergte Pull Requests in drei Wochen. Diese Zahl ist allerdings ein Eigen-Claim ohne externe Prüfung, und sie sagt nichts über die Qualität der gemergten Änderungen.
Microsoft fährt dieselbe Richtung, nur ohne den zugespitzten Satz. Auf der Build 2026 stehen Windows Agent Framework, ein Copilot Agent Mode und ein Agent Store im Zentrum, und der GitHub Copilot Coding Agent bearbeitet zugewiesene Issues selbstständig, bis die Tests grün sind. Die Grundannahme ist die gleiche: Lasst die Agenten laufen, der Mensch hält nur auf.
Die Zahlen erzählen eine andere Geschichte
Die Prämisse klingt plausibel, bis man sich ansieht, warum Menschen KI-Output überhaupt so genau prüfen. Die Daten dazu sind eindeutig, und sie zeigen kein Trägheitsproblem.
Im Stack Overflow Developer Survey 2025 nutzen 84 Prozent der Befragten KI-Tools, aber nur rund ein Drittel vertraut der Korrektheit des Outputs, ein deutlicher Rückgang gegenüber dem Vorjahr (Stack Overflow). Das mit Abstand häufigste Problem, von zwei Dritteln genannt: Lösungen, die fast richtig sind, aber eben nicht ganz. Genau diese Fälle kosten beim Prüfen am meisten Zeit.
Dass die gefühlte Beschleunigung trügt, hat die METR-Studie in einem kontrollierten Versuch gezeigt: Erfahrene Open-Source-Entwickler waren mit KI-Unterstützung 19 Prozent langsamer als ohne, glaubten hinterher aber, 20 Prozent schneller gewesen zu sein. Und der Faros-Bericht 2026 liefert die Systemsicht aus Telemetriedaten von 22.000 Entwicklern: mehr Durchsatz, aber auch 54 Prozent mehr Bugs, eine verdreifachte Incident-Rate und eine fünffach längere Review-Zeit pro PR.
Diese Review-Last ist bei uns kein neues Thema, der Review-Engpass und die unsichtbare Arbeit hinter KI-Code waren schon mehrfach hier. Neu ist, wer jetzt für den Engpass verantwortlich gemacht wird.
Die Kausalität steht auf dem Kopf
Das ist der eigentliche Punkt. Menschen prüfen KI-Output nicht, weil sie zu langsam oder zu vorsichtig sind, sondern weil der Output unzuverlässig ist. Die hohe Review-Last ist keine Schwäche der Organisation, sie ist eine vernünftige Reaktion auf ein Qualitätsproblem. Wer die Prüfung zum Flaschenhals erklärt, benennt das Symptom und verschweigt die Ursache.
Und es bleibt nicht bei der Deutung. Wenn Prüfung als Engpass gilt, wird Prüfung reduziert. Genau das misst Faros bereits: 31 Prozent mehr Pull Requests, die ganz ohne Review gemergt werden. Ein selbstverwaltendes System wie Symphony löst dann nicht den menschlichen Engpass, es entfernt den Mechanismus, der schlechten Code abfängt. Aus einem Qualitätsproblem wird ein Qualitätsrisiko mit höherem Tempo.
Was das im DACH-Raum bedeutet
Spätestens hier wird aus einer Framing-Frage eine Haftungs- und Mitbestimmungsfrage. Denn ein Agent, der im eigenen Namen Tickets abarbeitet, verschiebt nicht nur den Workflow, er verschiebt auch die Verantwortung, und die bleibt am Unternehmen hängen.
Das Oberlandesgericht Hamm hat am 12. Mai 2026 (Az. 4 UKl 3/25) entschieden, dass sich ein Unternehmen für die Aussagen seines Chatbots nicht auf "das war die KI" herausreden kann. Im Fall hatte ein Praxis-Chatbot nicht existierende Facharzttitel erfunden, das Gericht wertete das als irreführende geschäftliche Handlung und stellte klar: Der Chatbot ist kein Dritter, sondern Werkzeug des Betreibers (mehr dazu in unserem Beitrag zur Chatbot-Zurechnung). Das war ein Wettbewerbsrechtsfall, kein allgemeines KI-Haftungsurteil, und die Revision zum BGH ist zugelassen. Die Richtung ist trotzdem deutlich: Wer Agenten laufen lässt, haftet für deren Ergebnisse.
Dazu kommt die Mitbestimmung. Nach § 87 Abs. 1 Nr. 6 BetrVG hat der Betriebsrat ein Vetorecht bei jeder technischen Einrichtung, die Verhalten oder Leistung von Beschäftigten überwachen kann. Ein System, das Aufgaben im Namen von Mitarbeitenden bearbeitet und protokolliert, fällt darunter (Paperclipped). Den gleichen Mechanismus haben wir schon bei den Agenten beschrieben, die ohne Prompt handeln. Wer Symphony oder ein Copilot-Agentenschwarm produktiv einführt, ohne den Betriebsrat einzubinden, baut auf wackligem Grund. Und ab August 2026 greift der EU AI Act vollständig, mit Anforderungen an menschliche Aufsicht und Nachvollziehbarkeit, die sich mit "die Agenten managen sich selbst" schwer vertragen.
Was du daraus mitnehmen solltest
Die Erzählung vom menschlichen Flaschenhals ist nicht einfach falsch, das Hin- und Herwechseln zwischen fünf Agenten ist real anstrengend. Aber sie verschiebt die Schuld an die falsche Stelle. Solange Modelle zuverlässig "fast richtig" liefern, ist die menschliche Prüfung kein Defizit, sondern die letzte Instanz, die zwischen Geschwindigkeit und Schaden steht.
Praktisch heißt das: Lasst euch die Review-Last nicht ausreden. Wenn ihr selbstverwaltende Agenten einsetzt, definiert pro Agent eine klare Ownership, haltet fest, wer welche Ergebnisse verantwortet, und behaltet die Review-Gates bei den Änderungen, die wirklich zählen. Im DACH-Raum gehört eine Betriebsvereinbarung dazu, bevor das System produktiv läuft, nicht danach. Der Flaschenhals ist nicht das Problem. Er ist das Sicherheitsventil.
Quellen8
- Fidji Simo: Closing the capability gap (05.01.2026)fidjisimo.substack.com
- The Decoder: OpenAI says human attention is the bottleneck (04.05.2026)the-decoder.com
- OpenAI/symphony - GitHub Repositorygithub.com
- InfoQ: OpenAI open-sources Symphony (Mai 2026)infoq.com
- METR: Measuring the Impact of Early-2025 AI on Experienced OSS Developer Productivity (10.07.2025)metr.org
- Faros AI: The Acceleration Whiplash (Mai 2026)faros.ai
- Stack Overflow Blog: Closing the developer AI trust gap (18.02.2026)stackoverflow.blog
- Paperclipped: KI-Agenten und Betriebsrat, §87 BetrVG (08.02.2026)paperclipped.de