Claude Opus 4.7 ist da: Was sich für Coding-Teams ändert

Anthropic hat am 16. April 2026 Claude Opus 4.7 offiziell freigeschaltet, einen Tag nach den ersten Leaks. Das Modell übernimmt für den Moment die Führung bei den wichtigsten Coding-Benchmarks und landet gleichzeitig ab Tag eins in API, Amazon Bedrock, Google Vertex AI, Microsoft Foundry, Claude Code und GitHub Copilot.

Die Benchmark-Zahlen

Auf SWE-bench Pro, dem Praxis-Test für echte GitHub-Issues in großen Codebases, erreicht Opus 4.7 64,3 Prozent. Zum Vergleich: GPT-5.4 liegt bei 57,7 Prozent, Gemini 3.1 Pro bei 54,2 Prozent. Auf SWE-bench Verified sind es 87,6 Prozent, ein Sprung von fast sieben Punkten gegenüber Opus 4.6 (80,8 Prozent). Auf CursorBench, einem spezifischen IDE-Szenario-Benchmark, liegt das Plus bei zwölf Punkten (70 vs. 58 Prozent).

Das heißt nicht, dass Opus 4.7 für jede Aufgabe das beste Modell ist. Benchmarks messen einen engen Ausschnitt. Für agentische Long-Running-Tasks mit vielen Tool-Aufrufen, wie sie in produktionsnahen Dev-Workflows typisch sind, liefert das Modell laut Anthropic die Drei- bis Vierfache Anzahl erfolgreicher Taskabschlüsse gegenüber 4.6. Das deckt sich mit den Berichten aus der Praxis-Preview der letzten Tage. Wir sind gespannt, wie es sich im täglichen Arbeiten anfühlt!

Das xhigh-Level

Neu ist ein Effort-Level namens xhigh, das zwischen high und max sitzt. Warum es dann nicht mhigh heißt, bleibt ein Rätsel, denn xhigh suggeriert mehr als high. Bisher mussten Teams in API-Calls zwischen "schnell und günstig" und "maximale Qualität, volle Latenz und Kosten" wählen. xhigh schiebt einen mittleren Punkt dazwischen: mehr Reasoning-Tiefe als high, aber ohne den ganz großen Kosten- und Zeit-Sprung auf max.

Für Teams, die Opus 4.7 in automatisierte Pipelines einbauen, ist das praktischer, als es klingt. Man muss nicht mehr pro Use-Case entscheiden, ob eine Prüfschleife "genug" ist oder ob man volles Max-Budget setzt. xhigh deckt den Mittelbereich ab, der in der Praxis die meisten Code-Review- und Refactoring-Tasks trifft.

Vision-Update

Opus 4.7 nimmt Bilder bis zu 2.576 Pixeln auf der langen Kante entgegen, rund 3,75 Megapixel, mehr als das Dreifache gegenüber Opus 4.6. Für Design-Tools, OCR-Workflows und UI-Analyse ist das ein handfestes Upgrade: Screenshots von größeren Dashboards oder Fullpage-Designs müssen nicht mehr auf Thumbnail-Auflösung heruntergerechnet werden, bevor sie ins Modell wandern.

Was Opus 4.7 nicht ist

Anthropic ist ungewöhnlich offen darin, was das Modell nicht liefert: Opus 4.7 ist "deutlich weniger breit fähig" (ja, gewöhnungsbedürftige Formulierung) als Claude Mythos Preview, das Modell, das Anthropic nach Triggern des ASL-4-Safety-Protokolls zurückhält. Mythos Preview erreicht 93,9 Prozent auf SWE-bench Verified und hat laut Anthropic Zero-Day-Schwachstellen in jedem großen Betriebssystem und Browser gefunden.

Opus 4.7 ist also bewusst der Kompromiss zwischen "öffentlich nutzbar" und "so fähig wie möglich ohne Mythos-Risiken". Die Cybersecurity-Fähigkeiten sind aktiv gedrosselt: Automatische Safeguards erkennen und blockieren Anfragen, die auf verbotene oder risikobehaftete Security-Nutzung hindeuten. Das ist ein anderer Ansatz als OpenAIs GPT-5.4-Cyber, das den gestuften Zugang über ein Trusted-Access-Programm regelt.

Pricing und Verfügbarkeit

Die Preise bleiben unverändert gegenüber Opus 4.6: 5 US-Dollar pro Million Input-Tokens, 25 US-Dollar pro Million Output-Tokens. Das ist insofern bemerkenswert, als bessere Modelle normalerweise teurer werden. Anthropic nutzt die gleiche Preiskategorie offensichtlich als Upgrade-Anreiz für bestehende Opus-4.6-Nutzer.

Verfügbar ab Tag eins:

Claude API direkt (claude-opus-4-7-20260416)
Amazon Bedrock und Google Vertex AI
Microsoft Foundry
Claude Code (automatisches Modell-Upgrade)
GitHub Copilot (verfügbar in VS Code, JetBrains und auf github.com)

Was Teams jetzt tun sollten

Für die meisten Teams ist Opus 4.7 ein direkter Drop-in gegenüber 4.6. Drei praktische Hinweise:

xhigh in Code-Review-Pipelines testen. Wer bisher zwischen high und max geschwankt ist, sollte xhigh als Default ausprobieren. Bei vielen Review-Tasks bringt das messbare Qualitätsgewinne ohne den Kostensprung auf max.
Vision-Workflows überprüfen. Wenn Screenshots bisher heruntergerechnet wurden, weil Opus 4.6 nicht mehr verkraftet hat, lohnt sich ein Test ohne die Resize-Pipeline.
Erwartungsmanagement bei Security-Tasks. Die Safeguards werden Security-Research-Anfragen blockieren, die bei GPT-5.4-Cyber (mit passender Verifikation) durchgehen. Wer Pentests oder Schwachstellenanalyse automatisiert, sollte prüfen, welches Modell zum Anwendungsfall passt.

Die Stanford-Zahlen von Anfang dieser Woche zeigen, wie schnell sich die Spitze bewegt: SWE-bench Verified ist innerhalb eines Jahres von 60 auf fast 100 Prozent gestiegen. Opus 4.7 ist bei 87,6 Prozent, Mythos Preview angeblich bei 93,9 Prozent. Der Abstand zum Modell, das Anthropic für sicher genug hält, um es zu veröffentlichen, wird kleiner. Für Teams bedeutet das: Evaluierungen veralten schneller als Migrationspläne durchlaufen können. Systematische Tests statt Hype-Followership bleiben der einzige belastbare Umgang damit.

Einordnung

Opus 4.7 ist kein Quantensprung, aber ein sauberes Upgrade. Die Benchmark-Führung gewinnt Anthropic zurück, ohne dass sich an Preis, Schnittstellen oder Integrationstiefe etwas ändert. Der interessantere Teil ist die Offenheit zum Gap zwischen Opus 4.7 und Mythos: Die Frage, was Frontier-Labs veröffentlichen und was sie zurückhalten, wird zum eigenen Thema neben den reinen Fähigkeitsfortschritten.

Für die Praxis im DACH-Raum ist Opus 4.7 ab sofort die sinnvolle Default-Wahl für Coding-Tasks auf Claude-Basis. Teams, die schon auf Claude Code oder die Anthropic-API setzen, profitieren ohne Aufwand. Teams, die bisher bei GPT-5.4 oder Gemini 3.1 Pro geblieben sind, haben einen neuen Messpunkt für die nächste Modellentscheidung.