Claude Opus 4.8: ehrlicher Code, gleicher Preis

Anthropic hat heute Claude Opus 4.8 veröffentlicht. Der Sprung von 4.7 auf 4.8 klingt nach einem kleinen Schritt, und Anthropic verkauft ihn auch genau so: ein "bescheidener, aber spürbarer" Fortschritt. Wichtiger als die Benchmark-Zahlen ist für den Arbeitsalltag, was sich daneben ändert, und dass der Preis gleich bleibt.

Opus 4.8 kostet weiter 5 Dollar pro Million Input-Tokens und 25 Dollar pro Million Output-Tokens. Der Fast Mode mit 2,5-facher Geschwindigkeit kostet 10 beziehungsweise 50 Dollar und ist damit laut Anthropic dreimal günstiger als bei den Vorgängermodellen.

Der eigentliche Fortschritt: weniger Selbstüberschätzung

Die interessanteste Verbesserung steht nicht in der Benchmark-Tabelle. Anthropic betont, dass Opus 4.8 ehrlicher über die eigene Arbeit ist. Ein bekanntes Problem aller Modelle: Sie behaupten gern, etwas erledigt zu haben, obwohl die Belege dünn sind. Genau dieses vorschnelle "fertig, läuft" macht KI-Code im Review so teuer.

Laut Anthropic markiert Opus 4.8 Unsicherheiten häufiger und lässt nach eigenen Messungen rund viermal seltener als der Vorgänger Fehler im selbst geschriebenen Code unkommentiert durchgehen. Das Alignment-Team bescheinigt dem Modell zudem deutlich weniger Fehlverhalten wie Täuschung oder Mitwirkung an Missbrauch.

Falls sich das in der Praxis bestätigt, ist es genau der Punkt, an dem es im Alltag weh tut. Die METR-Studie und die Faros-Telemetrie zeigen, dass der nachgelagerte Review- und Nacharbeitsaufwand die vorne gesparte Zeit oft wieder auffrisst. Ein Modell, das selbst sagt "hier bin ich mir nicht sicher", verschiebt einen Teil dieser Arbeit nach vorn. Genau dieses Muster haben wir im Realitätscheck zu George Hotz' Agenten-Kritik beschrieben.

Dynamic Workflows: Hunderte Subagenten in einer Session

Die größte Neuerung für Claude-Code-Nutzer ist ein eigenes Feature, das parallel startet: Dynamic Workflows, vorerst als Research Preview. Claude schreibt dabei selbst ein Orchestrierungs-Skript, das zehn bis hunderte Subagenten parallel laufen lässt, prüft die Ergebnisse und meldet erst dann zurück.

Das Ziel sind Aufgaben, die für einen einzelnen Agenten-Durchlauf zu groß sind: Bug-Jagd über einen ganzen Service, Migrationen über tausende Dateien, ein Plan, den man von allen Seiten stresstesten will. Die Agenten gehen ein Problem aus unterschiedlichen Blickwinkeln an, andere Agenten versuchen, deren Ergebnisse zu widerlegen, und der Lauf iteriert, bis die Antworten konvergieren. Unterbrochene Läufe setzen am letzten Stand wieder auf, weil die Koordination außerhalb des Chats passiert.

Als Vorzeigebeispiel nennt Anthropic den Umbau von Bun: Jarred Sumner portierte die JavaScript-Runtime mit Dynamic Workflows von Zig nach Rust, rund 750.000 Zeilen Rust, 99,8 Prozent der bestehenden Testsuite grün, elf Tage vom ersten Commit bis zum Merge. Hunderte Agenten arbeiteten parallel, mit zwei Reviewern pro Datei. In Produktion ist der Port noch nicht.

Zwei Dinge gehören klar dazu. Erstens: Dynamic Workflows sind nur in den Plänen Max, Team und Enterprise verfügbar, bei Enterprise zum Start standardmäßig aus. Zweitens, und wichtiger: Sie verbrauchen laut Anthropic deutlich mehr Tokens als eine normale Claude-Code-Session. Beim ersten Start zeigt Claude Code an, was laufen wird, und fragt nach. Anthropic empfiehlt selbst, mit einer eng abgegrenzten Aufgabe anzufangen, um ein Gefühl für den Verbrauch zu bekommen.

Effort-Control, Fast Mode und ein API-Detail

Drei weitere Änderungen sind heute dazugekommen:

Effort-Control in claude.ai und Cowork, verfügbar in allen Plänen. Ein Regler neben der Modellauswahl bestimmt, wie viel Aufwand Claude in eine Antwort steckt. Höhere Stufen denken öfter und tiefer nach, niedrige antworten schneller und schonen das Rate-Limit. Opus 4.8 steht standardmäßig auf "high"; für schwere oder lang laufende Aufgaben empfiehlt Anthropic "extra" (in Claude Code: xhigh).
Fast Mode für Opus 4.8 mit 2,5-facher Geschwindigkeit, jetzt dreimal günstiger als bei den Vorgängern.
Ein API-Detail mit Praxisnutzen: Die Messages API akzeptiert jetzt System-Einträge mitten im messages-Array. Damit lassen sich Instruktionen, Berechtigungen oder Token-Budgets während einer laufenden Aufgabe ändern, ohne den Prompt-Cache zu brechen oder den Umweg über einen User-Turn zu nehmen. Für alle, die eigene Agenten-Harnesses bauen, spart das Tokens und Komplexität.

Was das für Teams im DACH-Raum heißt

Für den Alltag ist Opus 4.8 kein Grund für Aufregung, aber ein sinnvolles Update ohne Mehrkosten. Drei Punkte sind konkret.

Wer ohnehin mit Claude arbeitet, bekommt das bessere Modell zum gleichen Preis und sollte schlicht umstellen. Die Modell-ID lautet claude-opus-4-8.

Die gemeldete höhere Ehrlichkeit ist das Versprechen, auf das es ankommt, aber sie bleibt ein Versprechen, bis es der eigene Code-Review bestätigt. Review bleibt Pflicht, gerade bei DSGVO-Verantwortung und Haftungsfragen. Ein Modell, das Unsicherheiten besser markiert, ersetzt keine zweite Person, die den Output prüft.

Und bei Dynamic Workflows lohnt sich Nüchternheit. Das Feature ist mächtig, aber der Tokenverbrauch ist es auch. Für ein kleines Team in der DACH-Region kann eine codebase-weite Migration je nach Plan schnell teuer werden. Erst an einer abgegrenzten Aufgabe ausprobieren, den Verbrauch beobachten, dann skalieren. Das gilt umso mehr, weil das Feature vorerst nur in den höheren Plänen steckt.