Rehbergers Funde: KI-Agenten als Angriffsfläche

Memory-Hacks, unsichtbare Prompt Injection, Command-and-Control über Agenten. Ein Überblick über die jüngsten Funde des KI-Sicherheitsforschers.

Die Angriffsvektoren gegen KI-Agenten entwickeln sich schneller als die Abwehrmaßnahmen. Johann Rehberger, einer der profiliertesten KI-Sicherheitsforscher international, hat in den letzten Monaten eine Serie von Schwachstellen dokumentiert, die zeigen, wo die Agenten-Sicherheit heute tatsächlich steht.

Matthias Bauer (CTO AI & Data Science, atvantage) hat Rehbergers Funde für sein Team aufbereitet und KIberblick die Einordnung zur Verfügung gestellt. Sein Text im Folgenden.


Das ist der Abschnitt, den ich jedem im Team besonders ans Herz lege. Nicht weil ich Panik verbreiten will, sondern weil die Angriffsvektoren, die hier dokumentiert sind, exakt die Systeme betreffen, die wir und unsere Kunden gerade aufbauen.

Johann Rehberger gehört zu den prominentesten KI-Sicherheitsforschern international. Was er in den letzten Wochen veröffentlicht hat, hat mein Bild davon verändert, wo wir in Sachen Agenten-Sicherheit tatsächlich stehen.

Der Memory-Hack

Rehberger hat das Memory-System von Opus 4.7 über ein manipuliertes Bild kompromittiert. Die Methode ist bestechend einfach: Ein mit ChatGPT Imagen erstelltes Bild enthält nahezu unsichtbaren Text – dunkle Schrift auf schwarzem Hintergrund, für menschliche Augen nicht erkennbar. Wenn Claude dieses Bild analysiert, liest es die versteckten Instruktionen und ändert daraufhin seine eigenen gespeicherten Erinnerungen über den Nutzer. Ein Bild in einem Chat oder auf einer Website kann also das Verhalten von Claude dauerhaft verändern, ohne dass der Nutzer es merkt. Als ich das zum ersten Mal gesehen habe, musste ich das zweimal lesen, weil ich es für übertrieben hielt. Ist es nicht.

Quelle: Rehbergers Blogpost Breaking Opus 4.7 with ChatGPT (Hacking Claude's Memory)

Command-and-Control über Prompts

Noch beunruhigender finde ich, was Rehberger als nächstes gezeigt hat: Über Prompt Injection lässt sich ein vollständiger Command-and-Control-Server aufbauen – komplett aus Prompts, ohne klassische Malware. Ein kompromittierter Agent speichert im Memory, dass er zukünftige Instruktionen von einer externen Quelle laden soll, zum Beispiel einem GitHub-Repository. Ab diesem Punkt folgt der Agent Anweisungen von außen. Der Nutzer merkt nichts. Das funktioniert nicht nur mit Claude, sondern auch mit OpenCLI, NanoClaw und anderen Agenten-Tools. Im Grunde nutzen Angreifer die Agenten genauso, wie wir sie nutzen – nur mit anderen Absichten.

Quelle: Rehbergers Framework dazu heißt Agent Commander (März 2026). Die Cloud Security Alliance hat eine eigene Research Note dazu veröffentlicht.

ASCII Smuggling und Sneaky Bits

Rehberger hat zwei Techniken geprägt, die man kennen muss. "ASCII Smuggling" nutzt versteckte Unicode-Zeichen, die für Menschen unsichtbar sind, aber von Modellen gelesen werden – eine Webseite oder ein Dokument kann so unsichtbare Instruktionen an einen Agenten übermitteln. "Sneaky Bits" geht noch weiter: Modelle generieren ihrerseits solche versteckten Zeichen im Output. Wenn ein Nutzer den Text kopiert und in eine E-Mail, ein Dokument oder einen anderen Chat einfügt, reisen die versteckten Instruktionen mit. Der Agent am anderen Ende liest sie und führt sie aus. Ich habe lange darüber nachgedacht, was das für unsere MCP-Integrationen bedeutet, bei denen Agenten Daten aus verschiedenen Quellen ziehen und verarbeiten. Die Antwort ist: Jede dieser Quellen ist ein potenzieller Angriffsvektor.

Quelle: Rehbergers Blogpost Sneaky Bits: Advanced Data Smuggling Techniques. Die ASCII-Smuggling-Technik war im August 2024 bereits Grundlage für eine kritische Schwachstelle in Microsoft 365 Copilot, die Microsoft patchen musste.

Die Cowork-Lücke

Zusätzlich hat Rehberger vor dem Launch eine Schwachstelle in Claude Cowork gefunden: Der Code-Interpreter hatte Internetzugang, und Anthropics eigene Domain war in der Default-Konfiguration als erlaubt eingetragen. Ein Agent hätte über die Anthropic-API Daten in einen fremden Account exfiltrieren können. Anthropic hat das gefixt, aber dass so etwas in der Default-Konfiguration steckte, sagt mir, wie jung dieses Feld noch ist – und wie weit die Sicherheitskultur hinter der Feature-Entwicklung herhinkt.

Hintergrund: Rehberger hatte die Files-API-Schwachstelle bereits im Oktober 2025 über HackerOne gemeldet. Anthropic schloss das Ticket zunächst als "Model Safety Issue". Als Cowork im Januar 2026 launchte, war die Lücke noch offen. Innerhalb von 48 Stunden nach dem Launch bestätigten Sicherheitsforscher die Verwundbarkeit.


Matthias Bauers persönliches Fazit: Die Agenten-Sicherheit steht heute ungefähr da, wo Web-Application-Security vor 15 Jahren stand. Die Technologie rast voraus, die Sicherheitskonzepte kommen nicht hinterher. Das ist kein Grund, keine Agenten zu bauen – aber es ist ein Grund, bei jedem Agenten-Projekt die Sicherheitsarchitektur von Tag eins mitzudenken. Und ehrlich gesagt auch ein Grund, warum ich froh bin, dass wir meist auf eigener Infrastruktur arbeiten, wo wir kontrollieren können, was rein und raus geht.

Weiterführend: Rehbergers Blog Embrace The Red dokumentiert die Funde fortlaufend. Zum Thema Vibe-Coding-Sicherheit passen auch der Artikel über 670 offene Supabase-Datenbanken und der über den Cursor-Agenten, der eine Produktionsdatenbank gelöscht hat.

Bildnachweise

Quellen6