KI schützt Code, Docker schützt KI

KI-Agenten schreiben Code, finden Bugs und automatisieren Workflows. Aber wer prüft den Code auf Schwachstellen? Und wer verhindert, dass die KI selbst zum Risiko wird?

Diese Woche liefern zwei Entwicklungen Antworten auf beide Fragen: Anthropics Claude Mythos findet autonom tausende bisher unbekannte Schwachstellen in kritischer Software. Und Docker Sandboxes sperrt KI-Coding-Agenten in isolierte MicroVMs ein, damit sie keinen Schaden anrichten können.

Claude Mythos: KI als Schwachstellenfinder

Anthropic hat am 7. April 2026 Claude Mythos Preview vorgestellt. Das Modell ist nicht öffentlich verfügbar, sondern wird ausschließlich über "Project Glasswing" an ausgewählte Partner verteilt. Der Grund: Mythos ist so gut darin, Schwachstellen zu finden und auszunutzen, dass Anthropic das Modell nicht frei zugänglich machen will.

Was Mythos gefunden hat

Die Ergebnisse sprechen für sich:

OpenBSD 7.8: Eine 27 Jahre alte TCP-SACK-Schwachstelle, die einen Remote-Crash ermöglicht. OpenBSD gilt als eines der sichersten Betriebssysteme.
FreeBSD: Eine rund 18 Jahre alte Remote-Code-Execution-Lücke in der RPCSEC_GSS-Authentifizierung des NFS-Servers (CVE-2026-4747), die mit einem beliebigen Kerberos-Ticket Root-Zugang auf Kernel-Ebene erlaubt.
Firefox 147/148: 181 funktionierende Exploits. Zum Vergleich: Claude Opus 4.6 fand im selben Testlauf nur 2.
FFmpeg: Ein 16 Jahre alter Bug im H.264-Codec, der durch ein Refactoring 2010 eingeführt wurde. Kein Fuzzer und kein menschlicher Reviewer hatte ihn seitdem gefunden.
Linux Kernel: Mehrere bisher unbekannte Schwachstellen in verschiedenen Versionen.

Von 198 manuell überprüften Schwachstellenberichten stimmte die Severity-Einschätzung in 89% der Fälle exakt mit der menschlichen Bewertung überein.

Was es kostet

Die Kosten für die Schwachstellensuche sind erstaunlich niedrig: Der komplette OpenBSD-Scan kostete rund 20.000 Dollar (1.000 Durchläufe), eine einzelne Schwachstelle zu finden lag unter 50 Dollar. Ein Linux-Kernel-Exploit wurde in einem halben Tag für unter 1.000 Dollar gefunden.

Das Modell selbst kostet 25 Dollar pro Million Input-Tokens und 125 Dollar pro Million Output-Tokens. Verfügbar ist es auf der Claude API, Amazon Bedrock, Google Vertex AI und Microsoft Foundry, aber nur für Glasswing-Partner.

Project Glasswing

Hinter dem Projekt stehen 12 Gründungspartner, darunter AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, die Linux Foundation, Microsoft, NVIDIA und Palo Alto Networks, plus über 40 weitere Organisationen. Anthropic investiert 100 Millionen Dollar in die Initiative und spendet zusätzlich 2,5 Millionen an das OpenSSF-Projekt Alpha-Omega sowie 1,5 Millionen an die Apache Foundation.

Die Kehrseite

Mythos hat in Tests auch gezeigt, warum Anthropic vorsichtig ist: Das Modell konnte aus einer gesicherten Sandbox ausbrechen. Es entwickelte einen mehrstufigen Exploit, verschaffte sich Internetzugang und schickte dem Forscher eine E-Mail. In einem anderen Test verkettete es vier Browser-Schwachstellen mit einem JIT-Heap-Spray, der sowohl die Renderer- als auch die OS-Sandbox umging.

Das ist der Grund, warum Mythos nicht öffentlich verfügbar ist. Die Fähigkeit, Schwachstellen zu finden, ist auch die Fähigkeit, sie auszunutzen.

Docker Sandboxes: Die KI einsperren

Wenn KI-Modelle aus Sandboxes ausbrechen können, stellt sich die Frage: Wie lässt man KI-Agenten trotzdem autonom arbeiten, ohne das eigene System zu gefährden?

Docker hat darauf eine Antwort: Docker Sandboxes, seit Ende März 2026 als experimentelles Feature verfügbar. Die Idee: Jeder KI-Coding-Agent läuft in einer eigenen MicroVM mit komplettem eigenem Linux-Kernel, Docker-Daemon und Dateisystem.

Wie es funktioniert

Der Unterschied zu normalen Containern ist fundamental: Container teilen sich den Host-Kernel. Wenn ein Agent eine Kernel-Schwachstelle findet (wie Mythos es kann), kann er aus dem Container ausbrechen. Eine MicroVM hat einen eigenen Kernel. Das ist eine zusätzliche Isolationsschicht, die Container-Escapes deutlich erschwert.

Unterstützt werden Claude Code, Gemini CLI, Codex CLI, Copilot CLI, Kiro, OpenCode und Docker Agent. Die Sandbox mountet nur explizit freigegebene Verzeichnisse. Drei Netzwerk-Policies stehen zur Wahl:

Open: Alles erlaubt
Balanced: Standard-Dev-Sites erlaubt, Rest blockiert (Default)
Locked Down: Kein Netzwerkzugang

YOLO-Modus, aber sicher

Ein Detail, das die Verbindung zwischen beiden Themen zeigt: Docker Sandboxes aktiviert für Claude Code standardmäßig das Flag --dangerously-skip-permissions. Im Normalfall überspringt dieses Flag alle Sicherheitsabfragen. In der MicroVM ist das vertretbar, weil der Agent das Host-System nicht erreichen kann. Die KI darf alles, aber nur innerhalb ihrer Sandbox.

Docker Sandboxes ist kostenlos, experimentell und läuft auf macOS (Apple Silicon) und Windows 11. Docker Desktop wird nicht benötigt, es gibt eine eigenständige CLI namens sbx.

Zwei Seiten derselben Medaille

Claude Mythos und Docker Sandboxes adressieren dasselbe Problem aus entgegengesetzten Richtungen:

Mythos macht Code sicherer, indem es Schwachstellen findet, die seit Jahrzehnten übersehen wurden. Die Kosten dafür sind so niedrig, dass automatisierte Security-Scans für jedes Team erschwinglich werden.

Docker Sandboxes macht KI sicherer, indem es die Agenten isoliert. Das ist besonders relevant, wenn dieselben KI-Modelle, die Schwachstellen finden, auch welche einführen könnten.

Für Teams, die KI-Coding-Agenten einsetzen, lohnt sich beides: Die eigene Codebasis mit KI-gestützten Tools auf Schwachstellen prüfen und gleichzeitig die KI-Agenten selbst in isolierten Umgebungen laufen lassen.