OpenAIs Security-Suite: GPT-5.5-Cyber und Codex-Scanner

OpenAI hat am 23. Juni 2026 ein ganzes Bündel an Sicherheitsprodukten auf einmal vorgestellt. Im Kern geht es um drei Dinge: ein stärkeres Modell zum Finden und Patchen von Schwachstellen, ein Plugin, das den Codex direkt in die Security-Arbeit am eigenen Code hängt, und eine Open-Source-Initiative, die das Ganze an realen Projekten erprobt. Zusammengefasst läuft alles unter dem Dach Daybreak, OpenAIs Cybersecurity-Sparte. Für Teams, die KI ohnehin schon zum Programmieren nutzen, ist vor allem der zweite Punkt interessant.

Was OpenAI vorgestellt hat

Baustein	Was es ist
GPT-5.5-Cyber	Spezialmodell zum Finden und Patchen von Schwachstellen, in aktualisierter Version, weiterhin nur als limitierte Preview für geprüfte Verteidiger ("trusted access")
Codex Security	Plugin, das Repositories scannt, Angriffspfade prüft und automatisch Patches erzeugt
Daybreak Cyber Partner Program	Rund 30 Security-Anbieter und Dienstleister bekommen Zugang zum Modell, um es in eigene Produkte einzubauen
Patch the Planet	Initiative mit Trail of Bits, HackerOne und Forschern, die offene Schlüsselprojekte beim Beheben von Lücken unterstützt

Der rote Faden: OpenAI positioniert seine stärksten Modelle ausdrücklich als Verteidigungswerkzeug und gibt den offensiven Teil nur an überprüfte Empfänger weiter. Das ist eine Reaktion auf die offene Sorge, dass dieselbe Fähigkeit, die Lücken findet, auch zum Angriff taugt.

Codex Security: der praktisch relevante Teil

Für Entwickler und QA ist das Codex-Security-Plugin der Baustein mit dem direktesten Arbeitsbezug. Es ist schon im März als Research-Preview gestartet und hat laut OpenAI seitdem über 30 Millionen Commits in mehr als 30.000 Codebases gescannt. Neu ist, dass es jetzt deutlich mehr kann als ein klassischer Linter oder Secret-Scanner.

flowchart TB
  subgraph classic["Klassischer Scanner"]
    direction TB
    A1["Code scannen"] --> A2["Viele Funde"]
    A2 --> A3["Viele Fehlalarme"]
    A3 --> A4["Mensch sortiert<br/>und patcht von Hand"]
  end
  subgraph codex["Codex Security"]
    direction TB
    B1["Code + Bedrohungsmodell"] --> B2["Funde"]
    B2 --> B3{"Real erreichbar?"}
    B3 -->|nein| B4["Verworfen"]
    B3 -->|ja| B5["Verifizierter Patch"]
  end
  class A3 abort
  class B3 decision
  class B4 abort
  class B5 success
  classDef decision fill:#1A3A4A,stroke:#F59E0B,color:#FDE68A
  classDef abort fill:#7F1D1D,stroke:#EF4444,color:#FCA5A5
  classDef success fill:#14532D,stroke:#22C55E,color:#86EFAC

Klassische Scanner melden alles und überlassen die Fehlalarm-Sortierung dem Menschen. Codex Security prüft zuerst, ob eine Lücke real erreichbar ist, und liefert nur dafür einen verifizierten Patch.

Der entscheidende Schritt ist die Erreichbarkeitsprüfung. Statt jede theoretisch mögliche Schwachstelle zu melden, prüft das Plugin, ob der betroffene Code überhaupt über einen realen Pfad ausgelöst werden kann, baut erst dann einen gezielten Patch und verifiziert das Ergebnis. Genau das ist der Punkt, an dem klassische Scanner Teams mit Fehlalarmen überschwemmen. Dazu kommen Tiefen-Scans ganzer Codebases, eine Angriffspfad-Analyse und der Export in bestehende Schwachstellen-Management-Systeme über SARIF-Dateien oder CodeQL-Queries. Damit lässt es sich an vorhandene Security-Pipelines anschließen, statt ein weiteres isoliertes Tool zu sein.

Das ergänzt einen Trend, der sich bei den Coding-Tools insgesamt abzeichnet: KI wandert von der reinen Code-Erzeugung in die Prüf- und Absicherungsschritte davor und danach.

GPT-5.5-Cyber: stärker, aber abgeschottet

Das aktualisierte Modell GPT-5.5-Cyber setzt nach OpenAIs eigenen Zahlen neue Bestwerte auf den gängigen Sicherheits-Benchmarks:

Benchmark	GPT-5.5-Cyber	GPT-5.5 (Basis)
CyberGym	85,6 %	81,8 %
ExploitGym	39,5 %	25,95 %
SEC-bench Pro	69,8 %	63,1 %

OpenAI reklamiert für sich, dass GPT-5.5-Cyber auf dem Cyber-Benchmark vor Anthropics Mythos liegt. Solche Hersteller-Vergleiche sind mit der üblichen Vorsicht zu lesen, sie stammen vom Anbieter selbst. Wichtiger für die Einordnung ist die Vertriebsentscheidung: Das Modell wird nicht frei ausgerollt, sondern nur an geprüfte Verteidiger und Partner über das Daybreak-Programm vergeben. Wer GPT-5.5-Cyber nutzen will, durchläuft also einen Prüfprozess. Im Alltag der meisten Teams landet die Fähigkeit eher indirekt, nämlich über das Codex-Plugin und über Security-Produkte der Partner.

Patch the Planet: der Test an echtem Code

Den Realitätscheck liefert Patch the Planet. Gemeinsam mit Trail of Bits, HackerOne und externen Forschern hat OpenAI die Werkzeuge auf 19 weit verbreitete Open-Source-Projekte angesetzt, darunter cURL, Python und Go. Trail of Bits stellt dafür eigene Security-Ingenieure ab, die in Vollzeit mit Codex und GPT-5.5-Cyber arbeiten. Ein erster fünftägiger Sprint brachte laut OpenAI hunderte gefundene Probleme und dutzende eingespielte Patches, in Summe 64 Pull Requests; weitere Funde laufen noch durch die koordinierte Offenlegung.

Das ist die ehrlichste Aussage über den tatsächlichen Reifegrad: nicht ein Benchmark-Wert, sondern gemergte Patches in Projekten, auf denen ein großer Teil der Software-Lieferkette aufsetzt. Wer die Diskussion um manipulierte Pakete in der Lieferkette verfolgt hat, etwa rund um die gefälschten npm-Pakete, erkennt hier den Gegenentwurf: KI nicht als Risikoquelle, sondern als Werkzeug, das die Wartungslast offener Projekte senkt.

Die Frage, die für DACH-Teams zählt

So nützlich automatisiertes Scannen plus Patch-Vorschlag ist, der Mechanismus bleibt derselbe wie bei jedem cloudbasierten KI-Tool: Damit Codex Security euren Code prüfen kann, muss dieser Code zu OpenAI. Bei Open-Source-Projekten ist das unkritisch, der Code ist ohnehin öffentlich. Bei proprietären Repositories mit Geschäftslogik, Mandantendaten in Tests oder eingebetteten Secrets ist es genau die Abwägung, die DSGVO-bewusste Teams ohnehin schon kennen.

Konkret heißt das vor dem Einsatz:

Klären, welche Repos überhaupt extern gescannt werden dürfen. Für öffentliche Projekte ist die Sache einfach, für internen Code braucht es dieselbe Prüfung wie bei jedem anderen Cloud-Coding-Tool.
Datenverarbeitung und Aufbewahrung prüfen. Wo liegt der Code während des Scans, wie lange, und greift ein vorhandenes Auftragsverarbeitungs- oder Zero-Data-Retention-Agreement? Wie schnell solche Zusagen kippen können, hat zuletzt der Streit um Anthropics ZDR-Verträge gezeigt.
Den Befund nicht blind übernehmen. Auch ein automatisch erzeugter Patch ist ein Vorschlag, der ins Review gehört. Die Erreichbarkeitsprüfung senkt die Fehlalarmquote, ersetzt aber nicht das menschliche Urteil darüber, ob ein Fix in eurem Kontext passt.

Wer die Datensouveränität grundsätzlich abwägen will, findet die Systematik im Artikel zur digitalen Souveränität für KI-Teams; die regulatorische Seite vertieft der Beitrag zur DSGVO-Compliance bei KI.

Unterm Strich: Das Paket verschiebt KI ein weiteres Stück in Richtung Verteidigung, und der Codex-Scanner ist für Teams, die ihren Stack ohnehin mit KI bearbeiten, der greifbarste Gewinn. Die spannende Frage ist nicht, ob die Tools funktionieren, sondern für welchen Code ihr bereit seid, den Cloud-Weg zu gehen.