GPT-5.5 ist da: Besser als Opus 4.7, aber teurer

OpenAI hat am 23. April 2026 GPT-5.5 ausgerollt, nur 48 Tage nach GPT-5.4. Das Modell, das intern unter dem Codenamen "Spud" lief, ist das neue Flaggschiff für agentisches Arbeiten und die Grundlage der angekündigten ChatGPT-Super-App. Verfügbar ab Tag eins in ChatGPT für Plus, Pro, Business und Enterprise sowie in Codex, die API folgt in den nächsten Tagen.

Was sich tatsächlich bewegt hat

Die Benchmark-Zahlen sind ungewöhnlich eindeutig, vor allem bei Long-Context:

MRCR v2 bei 512K bis 1M Token: 74,0 % (GPT-5.4: 36,6 %)
Graphwalks BFS bei 1M Token: 45,4 % (GPT-5.4: 9,4 %)
Terminal-Bench 2.0: 82,7 % (neuer SOTA, Opus 4.7: 69,4 %)
SWE-Bench Pro: 58,6 % (Opus 4.7 bleibt mit 64,3 % führend)

Die Long-Context-Zahlen sind die eigentliche Nachricht. GPT-5.4 hatte das 1-Million-Token-Fenster zwar schon auf dem Datenblatt, praktisch nutzbar war es nur bedingt. MRCR-74 % heißt: Informationen aus dem hinteren Drittel einer großen Codebase oder Ticket-Historie lassen sich jetzt tatsächlich herausziehen, nicht nur theoretisch adressieren.

Bei Coding liegt GPT-5.5 im Agentenmodus (Terminal-Bench) vor Opus 4.7, auf SWE-Bench Pro aber weiterhin dahinter. Für die Praxis heißt das: Wer lange Tool-Ketten und autonome Task-Zerlegung braucht, bekommt mit 5.5 den besseren Kandidaten. Wer GitHub-Issues in großen Bestandsprojekten durchackert, bleibt bei Opus 4.7 besser aufgehoben.

Die Preisseite

Hier wird es unangenehm. Die API-Preise verdoppeln sich gegenüber GPT-5.4:

Modell	Input (pro 1M Token)	Output (pro 1M Token)
GPT-5.4	2,50 $	15,00 $
GPT-5.5	5,00 $	30,00 $
GPT-5.5 Pro	30,00 $	180,00 $
Claude Opus 4.7	5,00 $	25,00 $

Damit ist GPT-5.5 beim Output-Preis 20 % teurer als Opus 4.7 und doppelt so teuer wie sein eigener Vorgänger. OpenAI kontert mit dem Argument, das Modell sei "token-effizienter" und brauche für vergleichbare Ergebnisse weniger Output-Tokens. Das ist richtig, aber eben nicht garantiert, sondern aufgabenabhängig.

Der Praxistest

Sam Witteveen hat die zwei Flaggschiffe direkt gegeneinander laufen lassen: GPT-5.5 in Codex gegen Opus 4.7 in Claude Code, vier One-Shot-Aufgaben, keine Iteration.

Personal-Branding-Website: GPT-5.5 in 4 Minuten fertig (ca. 1 $), Opus brauchte 14 Minuten (ca. 5 $). Beide Ergebnisse visuell solide, Claude etwas polierter im Mikro-Feeling, Codex schneller und deutlich günstiger.
Sonnensystem-Simulation: Opus-Variante sah besser aus und war am Ende sogar rund 1 $ günstiger. Funktional vergleichbar.
3D-Weltraum-Shooter: GPT-5.5 klar vorn. Halbe Laufzeit, weniger Tokens, sauberere Physik.
Ökosystem-Simulation: Beide Modelle scheitern am gleichen Punkt, die Logik bleibt kaputt. Hier hilft nur Iteration.

In Summe war GPT-5.5 über alle vier Experimente etwa 3 $ günstiger, die Gesamtlaufzeit halbiert (20 vs 40 Minuten) und die Output-Token rund ein Drittel von Opus (70.000 vs 250.000). Die Token-Effizienz-These hält also bei diesen Aufgabentypen.

Aber: Der Abstand ist klein. Bei drei der vier Tasks war das Ergebnis qualitativ ein Wash oder subjektive Geschmackssache. GPT-5.5 ist besser, oft nur minimal, und der höhere Listenpreis pro Token fällt immer dann ins Gewicht, wenn die Effizienz-Annahme nicht trägt, etwa bei Aufgaben mit vielen Zwischenschritten oder großem Context-Durchsatz. Kurz: besser, aber im Zweifel auch teurer.

Was sonst noch drin ist

400K Token Context in Codex statt 1M wie im API-Zugang. Wer das volle Fenster will, muss die Direkt-API oder ChatGPT nutzen.
Cybersecurity-Framing: OpenAI positioniert GPT-5.5 explizit als Werkzeug zur Stärkung von Cyber-Defense. Der Blog-Post ist im Ton deutlich näher am Anthropic-Mythos-Framing als frühere OpenAI-Releases.
Alte Modelle raus: GPT-5, GPT-5-Thinking und einige Mini-Varianten verschwinden, GPT-5.5 übernimmt die Default-Rolle.

Einordnung

GPT-5.5 schließt auf Opus 4.7 auf, überholt in agentischen Teilbereichen und bleibt bei der echten Code-Arbeit knapp dahinter. Die Long-Context-Sprünge sind praktisch relevant, der Preissprung ist ärgerlich, und der 6-Wochen-Takt zwischen 5.4 und 5.5 zeigt, wie schnell modellspezifische Entscheidungen veralten.

Für Teams im DACH-Raum lohnt sich das pragmatische Nebeneinander: Opus 4.7 für tiefe Code-Arbeit in großen Repos (verfügbar in Claude Managed Agents, Amazon Bedrock, Google Vertex AI und GitHub Copilot), GPT-5.5 dort, wo agentische Autonomie und Tempo zählen (verfügbar in ChatGPT, Codex und in Kürze über die Azure-OpenAI-API). Beide haben Schwächen, und die Preiskurve zeigt nach oben, nicht nach unten. Der GitHub-Copilot-Umbau vom 20. April ist in diesem Licht kein Zufall, sondern die logische Konsequenz daraus, dass jede Modellgeneration eine Preisschicht oben drauf legt.

Wer Modellentscheidungen in Teams zu verantworten hat, sollte diese Woche nicht die Benchmarks vergleichen, sondern zwei konkrete Team-Tasks doppelt fahren und die Stückkosten messen. Alles andere ist Marketing-Rennen.