Bist du der Flaschenhals? OpenAIs Erzählung

Es gibt eine neue Erzählung in der KI-Branche, und sie ist subtil genug, dass man sie leicht überhört. Sie geht so: Die Modelle sind längst gut genug. Was den Nutzen bremst, seid ihr. Eure Aufmerksamkeit, eure Review-Kapazität, eure Gewohnheit, jede Zeile noch mal anzusehen. Der Mensch ist der Flaschenhals.

OpenAI-Produktchefin Fidji Simo hat das Framing Anfang des Jahres gesetzt. In ihrem Beitrag vom 5. Januar 2026 schreibt sie: "AI models are capable of far more than how most people experience them day to day, and 2026 is about closing that gap" (Simo). Die Lücke liegt also bei den Menschen und der Produktgestaltung, nicht beim Modell. Wenige Monate später wurde aus der These ein System.

Symphony: wenn Tickets sich selbst abarbeiten

Ende April 2026 hat OpenAI "Symphony" als Open-Source-Spezifikation auf GitHub veröffentlicht. Die Begründung im Ankündigungstext ist bemerkenswert offen: "The agents were fast, but we had a system bottleneck: human attention" (The Decoder). Die Entwickler konnten drei bis fünf Codex-Sitzungen parallel steuern, danach wurde das ständige Hin und Her zum Bremsklotz.

Symphony löst das, indem es den Menschen aus der Schleife nimmt. Ein Daemon pollt einen Task-Tracker, aktuell Linear. Jedes Ticket bekommt ein isoliertes Workspace, in dem ein Codex-Agent bis zum fertigen Pull Request arbeitet, bei Bedarf eigene Folge-Tickets erstellt und nach einem Absturz automatisch neu startet (InfoQ). Der Mensch verwaltet nur noch das Board, die Agenten erledigen den Rest.

Fairerweise: Symphony schafft die Kontrolle nicht komplett ab. Approval-Regeln für Datei- und Befehlsänderungen bleiben konfigurierbar, ebenso ein Monitoring-Interface. OpenAI nennt es ausdrücklich eine Referenz-Implementierung, kein Produkt, und meldet intern rund 500 Prozent mehr gemergte Pull Requests in drei Wochen. Diese Zahl ist allerdings ein Eigen-Claim ohne externe Prüfung, und sie sagt nichts über die Qualität der gemergten Änderungen.

Microsoft fährt dieselbe Richtung, nur ohne den zugespitzten Satz. Auf der Build 2026 stehen Windows Agent Framework, ein Copilot Agent Mode und ein Agent Store im Zentrum, und der GitHub Copilot Coding Agent bearbeitet zugewiesene Issues selbstständig, bis die Tests grün sind. Die Grundannahme ist die gleiche: Lasst die Agenten laufen, der Mensch hält nur auf.

Die Zahlen erzählen eine andere Geschichte

Die Prämisse klingt plausibel, bis man sich ansieht, warum Menschen KI-Output überhaupt so genau prüfen. Die Daten dazu sind eindeutig, und sie zeigen kein Trägheitsproblem.

Im Stack Overflow Developer Survey 2025 nutzen 84 Prozent der Befragten KI-Tools, aber nur rund ein Drittel vertraut der Korrektheit des Outputs, ein deutlicher Rückgang gegenüber dem Vorjahr (Stack Overflow). Das mit Abstand häufigste Problem, von zwei Dritteln genannt: Lösungen, die fast richtig sind, aber eben nicht ganz. Genau diese Fälle kosten beim Prüfen am meisten Zeit.

Dass die gefühlte Beschleunigung trügt, hat die METR-Studie in einem kontrollierten Versuch gezeigt: Erfahrene Open-Source-Entwickler waren mit KI-Unterstützung 19 Prozent langsamer als ohne, glaubten hinterher aber, 20 Prozent schneller gewesen zu sein. Und der Faros-Bericht 2026 liefert die Systemsicht aus Telemetriedaten von 22.000 Entwicklern: mehr Durchsatz, aber auch 54 Prozent mehr Bugs, eine verdreifachte Incident-Rate und eine fünffach längere Review-Zeit pro PR.

Diese Review-Last ist bei uns kein neues Thema, der Review-Engpass und die unsichtbare Arbeit hinter KI-Code waren schon mehrfach hier. Neu ist, wer jetzt für den Engpass verantwortlich gemacht wird.

Die Kausalität steht auf dem Kopf

Das ist der eigentliche Punkt. Menschen prüfen KI-Output nicht, weil sie zu langsam oder zu vorsichtig sind, sondern weil der Output unzuverlässig ist. Die hohe Review-Last ist keine Schwäche der Organisation, sie ist eine vernünftige Reaktion auf ein Qualitätsproblem. Wer die Prüfung zum Flaschenhals erklärt, benennt das Symptom und verschweigt die Ursache.

flowchart TB
  A["Modell-Output oft<br/>fast richtig, aber nicht ganz"] --> B["Mensch muss prüfen"]
  B --> C["hohe Review-Last"]
  C --> D{"Wie wird das<br/>gedeutet?"}
  D -->|"Anbieter-Lesart"| E["Mensch ist der Flaschenhals<br/>→ weniger Prüfung"]
  D -->|"Daten-Lesart"| F["Qualitätsproblem<br/>→ Prüfung bleibt nötig"]
  E --> G["Qualitätskontrolle<br/>wird ausgehebelt"]
  class D decision
  class E,G abort
  class F success
  classDef decision fill:#1A3A4A,stroke:#F59E0B,color:#FDE68A
  classDef abort fill:#7F1D1D,stroke:#EF4444,color:#FCA5A5
  classDef success fill:#14532D,stroke:#22C55E,color:#86EFAC

Die Anbieter-Erzählung dreht Ursache und Wirkung um: Aus einer Folge der Modellqualität wird ein menschliches Problem.

Und es bleibt nicht bei der Deutung. Wenn Prüfung als Engpass gilt, wird Prüfung reduziert. Genau das misst Faros bereits: 31 Prozent mehr Pull Requests, die ganz ohne Review gemergt werden. Ein selbstverwaltendes System wie Symphony löst dann nicht den menschlichen Engpass, es entfernt den Mechanismus, der schlechten Code abfängt. Aus einem Qualitätsproblem wird ein Qualitätsrisiko mit höherem Tempo.

Was das im DACH-Raum bedeutet

Spätestens hier wird aus einer Framing-Frage eine Haftungs- und Mitbestimmungsfrage. Denn ein Agent, der im eigenen Namen Tickets abarbeitet, verschiebt nicht nur den Workflow, er verschiebt auch die Verantwortung, und die bleibt am Unternehmen hängen.

Das Oberlandesgericht Hamm hat am 12. Mai 2026 (Az. 4 UKl 3/25) entschieden, dass sich ein Unternehmen für die Aussagen seines Chatbots nicht auf "das war die KI" herausreden kann. Im Fall hatte ein Praxis-Chatbot nicht existierende Facharzttitel erfunden, das Gericht wertete das als irreführende geschäftliche Handlung und stellte klar: Der Chatbot ist kein Dritter, sondern Werkzeug des Betreibers (mehr dazu in unserem Beitrag zur Chatbot-Zurechnung). Das war ein Wettbewerbsrechtsfall, kein allgemeines KI-Haftungsurteil, und die Revision zum BGH ist zugelassen. Die Richtung ist trotzdem deutlich: Wer Agenten laufen lässt, haftet für deren Ergebnisse.

Dazu kommt die Mitbestimmung. Nach § 87 Abs. 1 Nr. 6 BetrVG hat der Betriebsrat ein Vetorecht bei jeder technischen Einrichtung, die Verhalten oder Leistung von Beschäftigten überwachen kann. Ein System, das Aufgaben im Namen von Mitarbeitenden bearbeitet und protokolliert, fällt darunter (Paperclipped). Den gleichen Mechanismus haben wir schon bei den Agenten beschrieben, die ohne Prompt handeln. Wer Symphony oder ein Copilot-Agentenschwarm produktiv einführt, ohne den Betriebsrat einzubinden, baut auf wackligem Grund. Und ab August 2026 greift der EU AI Act vollständig, mit Anforderungen an menschliche Aufsicht und Nachvollziehbarkeit, die sich mit "die Agenten managen sich selbst" schwer vertragen.

Was du daraus mitnehmen solltest

Die Erzählung vom menschlichen Flaschenhals ist nicht einfach falsch, das Hin- und Herwechseln zwischen fünf Agenten ist real anstrengend. Aber sie verschiebt die Schuld an die falsche Stelle. Solange Modelle zuverlässig "fast richtig" liefern, ist die menschliche Prüfung kein Defizit, sondern die letzte Instanz, die zwischen Geschwindigkeit und Schaden steht.

Praktisch heißt das: Lasst euch die Review-Last nicht ausreden. Wenn ihr selbstverwaltende Agenten einsetzt, definiert pro Agent eine klare Ownership, haltet fest, wer welche Ergebnisse verantwortet, und behaltet die Review-Gates bei den Änderungen, die wirklich zählen. Im DACH-Raum gehört eine Betriebsvereinbarung dazu, bevor das System produktiv läuft, nicht danach. Der Flaschenhals ist nicht das Problem. Er ist das Sicherheitsventil.