Tools

KI-Coding-Tools im Vergleich

Claude Code, Codex, Cursor, Copilot, Antigravity und Windsurf im Vergleich. Was die Tools können, was sie kosten und was sich für DACH-Teams lohnt.

Entwickler:in Projektleiter:in Product Owner

Aktualisiert am 30. Juni 202612 Min. Lesezeit

Der Markt für KI-Coding-Tools bewegt sich rasant. Allein im Juni 2026 wurde GitHubs nutzungsbasierte Abrechnung scharf geschaltet, Cursor von SpaceX übernommen, Windsurf in Devin Desktop umbenannt und Googles Gemini CLI für Privatnutzer abgeschaltet. Wer gerade eine Tool-Entscheidung trifft oder die bestehende überprüfen will, verliert da leicht den Überblick. Dieser Artikel sortiert die wichtigsten Werkzeuge, ihre Stärken, ihre Preise und die Frage, für wen sich was lohnt.

Stand: Juni 2026. Preise, Modelle und Limits ändern sich bei diesen Tools im Wochentakt. Wir halten diesen Überblick aktuell, das Datum oben zeigt den letzten Stand. Vor einer Kaufentscheidung lohnt trotzdem der Blick auf die Hersteller-Seite.

Zwei Lager

Grob lassen sich die Tools in zwei Lager teilen.

Das eine ist terminal-first: Der Agent lebt in der Kommandozeile, der Editor bleibt, was er ist. Claude Code und OpenAI Codex stehen für diesen Ansatz. Wer eine bestehende Toolchain hat und den Agenten dort andocken will, fühlt sich hier wohl.

Das andere ist IDE- oder agent-first: Der Editor selbst wird zur Agentenzentrale, oft als VS-Code-Fork. Cursor, Google Antigravity und Windsurf gehören hierher. GitHub Copilot sitzt dazwischen, weil es sowohl in der IDE als auch zunehmend agentisch arbeitet.

Die Entscheidung zwischen den Lagern ist meist eine Frage der Arbeitsweise, nicht der Leistung. Beide Ansätze sind 2026 produktiv einsetzbar.

Die Tools im Einzelnen

Claude Code (Anthropic)

Der Platzhirsch im terminal-first-Lager. Claude Code läuft in Terminal, Web und Desktop und nutzt seit dem 30. Juni Sonnet 5 für den Alltag sowie Opus 4.8 für die schweren Aufgaben. Die Stärke liegt in der Code-Qualität bei komplexen Refactorings und der mittlerweile sehr ausgereiften Tool-Integration (Rules, Slash-Commands, SubAgents, Skills).

Preislich gibt es Pro für 20 Dollar, Max 5x für 100 Dollar und Max 20x für 200 Dollar pro Monat. Die Limits laufen in rollierenden 5-Stunden-Fenstern plus Wochenlimit. Seit dem Compute-Deal mit SpaceX/Colossus ist die Drosselung zu Stoßzeiten auf Pro und Max weggefallen, das war vorher ein echter Schmerzpunkt.

OpenAI Codex

Codex ist OpenAIs Antwort und kommt als CLI, IDE-Extension und Cloud-Variante. Seit April rechnet OpenAI Codex tokenbasiert ab, statt pro Nachricht. Enthalten ist Codex in ChatGPT Plus (20 Dollar) und Pro (200 Dollar), die Limits laufen wie bei Claude in 5-Stunden-Fenstern. Pro hebt die Grenzen deutlich an. Seit Mai gibt es Codex auch in der ChatGPT-Mobile-App, sodass sich laufende Cloud-Sessions von unterwegs überwachen lassen. Im Vergleich zu Claude ist Codex stärker, was Design angeht. Das kann sich aber auch mit jedem Modellupdate ändern.

Wer ohnehin ein ChatGPT-Abo hat, bekommt Codex praktisch geschenkt dazu. Das ist der größte Vorteil gegenüber Claude Code, wo das Abo dediziert fürs Coding ist.

Cursor

Cursor ist der bekannteste IDE-Fork und hat am 18. Mai Composer 2.5 veröffentlicht. Das hauseigene Modell liegt laut Anbieter bei Coding-Benchmarks auf dem Niveau von Opus 4.7 und GPT-5.5, kostet im Standard-Tarif aber nur 0,50 Dollar pro Million Input- und 2,50 Dollar pro Million Output-Token. Das ist deutlich günstiger als die Frontier-Modelle und macht Cursor für preissensible Teams interessant.

Die Abos: Pro für 20 Dollar, Pro+ für 60 Dollar und Ultra für 200 Dollar pro Monat. Ultra gibt das 20-fache der Pro-Credits. Dazu kamen Cloud-Agent-Umgebungen, eine Teams-Integration und ein Modus für mehrere parallele Agenten.

Neu seit Mitte Juni: SpaceX hat angekündigt, Cursor-Macher Anysphere für 60 Milliarden Dollar in Aktien zu übernehmen. Cursor landet damit perspektivisch in derselben Hand wie xAI und Grok. Der Abschluss ist für das dritte Quartal geplant und steht unter regulatorischem Vorbehalt. Eine laufende Tool-Nutzung ändert das nicht, aber wer auf Anbieterunabhängigkeit Wert legt, sollte es im Hinterkopf behalten. Dazu muss man sich überlegen, ob ein Produkt von Elon Musk vertrauenswürdig ist.

GitHub Copilot

Copilot hat sein Pricing umgestellt. Seit dem 1. Juni rechnet Copilot über alle Pläne hinweg nutzungsbasiert über AI Credits ab. Die Grundpreise bleiben gleich (Pro für 10 Dollar, Pro+ für 39 Dollar, dazu ein Max-Tarif für 100 Dollar), aber Chat, Agenten, Code-Review und CLI laufen jetzt gegen ein Credit-Kontingent. Wichtig: Code-Vervollständigung und Next-Edit-Vorschläge bleiben in allen Plänen enthalten und verbrauchen keine Credits. In der Praxis berichten Teams mit hoher Agenten-Nutzung von spürbar höheren und schlechter planbaren Kosten.

Copilot bleibt der einfachste Einstieg für Teams, die schon in GitHub leben. Die tiefe Integration in Pull Requests, Issues und Actions ist hier der Trumpf.

Google Antigravity 2.0

Mit der I/O am 19. Mai hat Google Antigravity zur eigenständigen Dev-Suite ausgebaut: Desktop-App, eine in Go geschriebene CLI und ein SDK für eigene Agenten. Das Herzstück ist die Multi-Agent-Orchestrierung mit bis zu fünf parallelen Agenten in eigenen Workspaces. Ungewöhnlich: Antigravity unterstützt nicht nur Gemini 3.5 Flash, sondern auch Claude Sonnet 4.6, Opus 4.6 und GPT-OSS 120B, ohne separate Abos.

Das auffälligste Feature ist ein Browser-Sub-Agent, der autonom durch die eigene Web-App klickt, Screenshots macht und UI gegen Spezifikationen prüft. Das hat sonst keiner. Zugang gibt es über den neuen AI-Ultra-Tier für 100 Dollar. Offen ist die Wettbewerbsfrage, ob die zugrunde liegende Chrome-Automatisierungsschnittstelle auch anderen Anbietern offensteht oder nur Google selbst.

Seit dem 18. Juni macht Google ernst: Die alte Gemini CLI und die Gemini-Code-Assist-Erweiterungen wurden für Privat-, Pro- und Ultra-Nutzer abgeschaltet. Wer sie genutzt hat, muss auf die closed-source Antigravity CLI umziehen, die laut Google zum Start keine vollständige Feature-Parität bietet. Nur Kunden mit Standard- oder Enterprise-Lizenz behalten den alten Zugang.

Devin Desktop (ehemals Windsurf)

Windsurf heißt seit dem 2. Juni Devin Desktop. Eigentümer Cognition hat das Tool per Over-the-Air-Update umbenannt, Pläne, Einstellungen und Erweiterungen wurden übernommen, es gibt nichts zu migrieren. Aus dem Editor mit KI-Aufsatz ist ein Agenten-Manager mit voller IDE geworden: Das Agent Command Center verwaltet lokale und Cloud-Agenten in einer Kanban-Ansicht, und der neue, in Rust geschriebene Agent Devin Local löst die alte Cascade ab. Die Preise blieben: Pro für 20 Dollar, Max für 200 Dollar. Für Teams, die autonome, länger laufende Agenten suchen, ist das ein eigenes Profil.

Preise auf einen Blick

Tool	Einstieg	Mitte	Top
Claude Code	Pro 20 $	Max 5x 100 $	Max 20x 200 $
OpenAI Codex	ChatGPT Plus 20 $	-	ChatGPT Pro 200 $
Cursor	Pro 20 $	Pro+ 60 $	Ultra 200 $
GitHub Copilot	Pro 10 $	Pro+ 39 $	Max 100 $
Antigravity	im AI Ultra 100 $	-	-
Devin Desktop (Windsurf)	Pro 20 $	-	Max 200 $

Alle Preise pro Monat, Stand Juni 2026. Bei den meisten Anbietern laufen darunter zusätzlich nutzungs- oder tokenbasierte Limits, ein direkter Preisvergleich greift also zu kurz. Wer viel verbraucht, sollte die tatsächlichen Token- oder Credit-Kosten gegen die eigene Last rechnen.

Was sich für wen lohnt

Wer Code-Qualität bei komplexen Aufgaben über alles stellt, fährt mit Claude Code am sichersten. Die Opus-4.8-Anbindung und die ausgereifte Workflow-Steuerung sind dafür das beste Paket.

Wer schon ein ChatGPT-Abo nutzt, bekommt mit Codex ein starkes Tool ohne Zusatzkosten, gerade die Mobile-Überwachung von Cloud-Sessions ist praktisch.

Wer im Editor lebt und ein flüssiges IDE-Erlebnis will, ist bei Cursor gut aufgehoben. Composer 2.5 senkt die Kosten spürbar, ohne bei der Qualität viel zu verlieren.

Wer ohnehin tief in GitHub steckt, hat mit Copilot den geringsten Reibungsverlust. Die nutzungsbasierte Abrechnung seit Juni macht die Kosten allerdings schwerer planbar, das gehört auf die Agenda.

Wer autonome Browser-Tests gegen die eigene UI fahren will, findet das in dieser Form nur bei Antigravity. Und wer länger laufende, eigenständige Agenten sucht, sollte sich das Windsurf-Devin-Bundle ansehen.

Der Multi-Agent-Trend: von einem Agenten zum Agenten-Team

Ein Muster zieht sich 2026 durch fast alle diese Tools: weg vom einzelnen Agenten, hin zu mehreren, die parallel arbeiten. Was vor einem Jahr noch Bastelei mit mehreren Terminal-Fenstern war, ist inzwischen ein eingebautes Feature.

Die Ansätze unterscheiden sich aber im Detail:

Claude Code setzt auf Subagents: spezialisierte Helfer mit eigenem Kontextfenster, eigenen Tool-Rechten und eigenem Modell. Der Hauptagent delegiert eine Teilaufgabe (Recherche, Tests, Log-Analyse) und bekommt nur die Zusammenfassung zurück, statt das eigene Kontextfenster vollzumüllen. Für mehrere unabhängige Sessions, die sich abstimmen, gibt es zusätzlich Agent Teams.
Cursor hat mit Composer 2.5 einen "Build in Parallel"-Modus plus Cloud-Agenten, die als unabhängige Worker laufen.
Antigravity orchestriert bis zu fünf parallele Agenten in eigenen Workspaces, dazu dynamische Sub-Agenten.
Codex bietet ein Desktop-Kommandozentrum, von dem aus sich mehrere Agenten über verschiedene Projekte hinweg überwachen lassen.
Devin Desktop (ehemals Windsurf) zielt mit Devin Local und Cloud-Agenten auf länger laufende, eigenständige Arbeit.

Der Reiz ist klar: Wer eine Aufgabe in Teilstücke zerlegen kann, lässt sie nebeneinander abarbeiten und spart Wartezeit. In der Praxis hat das aber Grenzen. Nicht jede Aufgabe lässt sich sauber aufteilen, und Agenten, die am selben Code arbeiten, geraten sich schnell ins Gehege. Vor allem verschiebt sich die Last: Drei Agenten, die parallel Code produzieren, erzeugen auch dreimal so viel, das jemand reviewen muss. Der Engpass wandert vom Schreiben zum Prüfen.

Praktisch heißt das: Multi-Agent lohnt sich dort, wo sich Arbeit klar trennen lässt, etwa ein Agent schreibt Tests, während ein anderer am Feature baut. Für eng verzahnte Änderungen an einer Datei bleibt ein einzelner Agent oft die ruhigere Wahl. Wer Agenten nicht nur fürs Coden, sondern team- und produktionsweit betreiben will, findet die größeren Plattformen dafür in unserem Vergleich der Team-Agent-Plattformen.

Und die offenen Modelle?

Alle Tools hier setzen primär auf kommerzielle Frontier-Modelle. Parallel sind die offenen, selbst betreibbaren Modelle beim Coding aber dicht aufgeschlossen: GLM-5.2 (MIT-Lizenz, Juni 2026) liegt bei manchen Coding-Benchmarks nur knapp hinter Claude Opus 4.8, dazu kommen DeepSeek V4, Kimi K2.6 und Qwen. Für DACH-Teams mit Datenschutz- oder Souveränitätsanforderungen sind sie eine ernsthafte Option, als Hauptwerkzeug oder als Rückfallebene. Warum dieser Gegentrend gerade jetzt zählt, ordnet unser Artikel KI-Coding-Tools: die bequemen teurer, die offenen besser ein. Den Einstieg ins Self-Hosting beschreibt Ollama.

Fazit

Der Markt verdichtet sich, und die gute Nachricht ist: Es gibt keinen klaren Verlierer. Die Modelle sind nah beieinander, die Unterschiede liegen in Workflow, Integration und Preis. Statt nach dem einen besten Tool zu suchen, lohnt es sich, das eigene Arbeitsumfeld ehrlich anzuschauen: Wo lebt das Team, welche Toolchain ist gesetzt, wie sieht das Budget aus. Die Antwort darauf entscheidet meist klarer als jede Benchmark-Tabelle.

Wer den Workflow rund um diese Tools schärfen will, findet in unserem Artikel zu EXACT Coding und der BMad-Methode zwei methodische Ergänzungen, die unabhängig vom gewählten Werkzeug funktionieren.

Aktualisierungen

30.06.2026: Claude Code nutzt für den Alltag jetzt Sonnet 5 (statt Sonnet 4.6).
18.06.2026: Aktualisiert auf Stand Juni: Copilot-Abrechnung ist live, Cursor wird von SpaceX übernommen, Windsurf heißt jetzt Devin Desktop, Gemini CLI für Privatnutzer abgeschaltet, Claude Code auf Opus 4.8. Neuer Abschnitt zu offenen Modellen.
22.05.2026: Abschnitt "Der Multi-Agent-Trend: von einem Agenten zum Agenten-Team" ergänzt.

Quellen12