1.353 Hallu-Fälle vor Gericht: Was IT-Teams daraus mitnehmen

Die Geschichte ist mit jedem Monat länger geworden, jetzt liegen die Zahlen offen auf dem Tisch: Damien Charlotin, Researcher an der HEC Paris, dokumentiert mit seinem öffentlichen Tracker mittlerweile 1.353 Gerichtsverfahren weltweit, in denen KI-Tools halluzinierte Zitate, erfundene Urteile oder falsch zugeordnete Aussagen in Schriftsätze gespült haben. Über 800 Fälle stammen aus US-Gerichten, der Rest aus elf weiteren Ländern. Allein am 31. März 2026 trafen an einem einzigen Tag siebzehn US-Gerichte Entscheidungen, in denen sie auf vermutete KI-Halluzinationen in Anwaltsschriftsätzen hinwiesen. Die Sanktionen werden härter: Q1 2026 hat in den USA über 145.000 USD an Geldstrafen wegen KI-Fehlern in juristischen Eingaben gebracht, der höchste Einzelfall in Oregon liegt bei 110.000 USD gegen einen einzelnen Anwalt.

Auf den ersten Blick ist das eine Anwaltsstory. Auf den zweiten Blick ist es die erste seriös vermessene Datenlage zur Frage, was passiert, wenn KI-Output ungeprüft in Produktion geht. Und das geht jeden an, der KI im Berufsalltag einsetzt.

Was der Tracker zeigt

Charlotin nimmt nur Fälle auf, in denen ein Gericht oder Tribunal explizit festgestellt hat, dass eine Partei sich auf halluzinierte Inhalte gestützt hat. Das schließt Bagatellen aus und macht die Zahl belastbar. Die zwölf erfassten Länder sind die USA, Israel, das Vereinigte Königreich, Kanada, Australien, Brasilien, die Niederlande, Italien, Irland, Spanien, Südafrika und Trinidad & Tobago. Deutschland, Österreich und die Schweiz tauchen aktuell nicht in den dokumentierten Fällen auf. Das heißt nicht, dass es im DACH-Raum keine Vorfälle gibt, sondern wahrscheinlich, dass sie noch nicht in der Form sichtbar geworden sind, die der Tracker erfasst.

Die typische Fallform ist immer dieselbe: Ein Anwalt nutzt ChatGPT, Claude oder ein eingebautes KI-Feature in der Kanzleisoftware, lässt sich Zitate oder Fundstellen vorschlagen, übernimmt sie ohne Prüfung in einen Schriftsatz, das Gericht stellt fest, dass die zitierten Urteile nicht existieren oder die Zitate falsch sind. Die Sanktionen reichen von Verwarnung über Berufsrechtsverfahren bis zu fünfstelligen Geldstrafen.

Bemerkenswert ist die Beschleunigung: Während 2023 und 2024 noch Einzelfälle die Schlagzeilen machten ("Avianca-Fall" 2023 in New York), ist die Frequenz inzwischen so hoch, dass Charlotins Tracker stündlich neue Einträge bekommt. Der heise-Bericht vom April 2026 nennt 1.300 dokumentierte Fälle, der Charlotin-Stand zur gleichen Zeit liegt bereits bei 1.353.

Was IT-Profis daraus lernen, auch ohne Robe

Der Mechanismus, der hier scheitert, ist nicht juristisch. Er ist universell. Vier Punkte sind direkt übertragbar.

1. KI-Output ist ein Vorschlag, kein Beleg. In allen dokumentierten Fällen war der gleiche Fehler eingebaut: Eine Person hat KI-generierte Inhalte als verifiziertes Material behandelt. Das Gericht behandelt sie nicht so. Genauso wenig sollte ein Codereview, ein Sicherheitsaudit oder eine Architektur-Entscheidung sich auf KI-Quellen stützen, die niemand gegengeprüft hat. Wer Claude oder ChatGPT eine Library, einen CVE, einen RFC oder eine API-Signatur zitieren lässt, muss damit rechnen, dass die Hälfte der Details plausibel klingt und trotzdem falsch ist.

2. Halluzinationen werden mit besseren Modellen nicht weniger, sondern anders. Die Fälle aus 2025 und 2026 betreffen GPT-4, GPT-5, Claude 3.5 und 4, Gemini, Copilot. Die Modelle sind besser geworden, die Halluzinationsrate für offensichtlichen Unsinn ist deutlich gesunken, die für plausibel klingende, präzise wirkende, aber falsche Aussagen dagegen kaum. Genau diese Klasse landet in Schriftsätzen und in Code-Reviews.

3. Audit-Trails sind Pflicht, nicht Kür. Im Gerichtsverfahren wird rekonstruiert, woher das falsche Zitat kam. Ohne dokumentierten Prompt-Verlauf, ohne Versionsstand des verwendeten Modells, ohne nachvollziehbare Antwort ist die Rekonstruktion teuer und peinlich. Für Software-Teams gilt dieselbe Mechanik: Wer KI-generierten Code, KI-erzeugte Dokumentation oder KI-gestützte Architektur-Entscheidungen ohne Audit-Trail in Produktion bringt, hat im Fehlerfall keinen Hebel zur Ursachenanalyse. Logging gehört zur KI-Nutzung wie es zu Datenbankzugriffen gehört.

4. Verantwortung lässt sich nicht delegieren. Die Gerichte sanktionieren in keinem dokumentierten Fall das KI-Tool. Sie sanktionieren immer den Menschen, der es eingesetzt hat. Die Argumentation "der Bot war schuld" ist vor Gericht ein Lacher. Genauso wird sie es im Audit, im Sicherheitsvorfall oder in der Code-Review-Diskussion sein.

Was das mit dem EU AI Act zu tun hat

Der EU AI Act hat in seinen Transparenzpflichten ab 2. August 2026 genau diese Mechanik im Blick. Wer KI in einem Produkt einsetzt, das mit Endkunden interagiert, muss kennzeichnen, wer hier spricht. Wer KI-generierte Inhalte verbreitet, muss sie als solche markieren. Die Pflicht zur menschlichen Aufsicht in Hochrisiko-Systemen ist die direkte Antwort auf das Muster, das der Charlotin-Tracker zeigt: Wenn niemand mehr drüberguckt, fliegen die Fehler durch.

Der Trilog-Endspurt zur Verschiebung dieser Pflichten ist am 28./29. April gescheitert. Der August-2026-Termin bleibt vorerst rechtskräftig. Details zur aktuellen Lage stehen im Artikel "EU AI Act: Fristen und was gilt wann".

Praxis-Konsequenz für KIberblick-Leser

Drei Dinge, die sich aus den 1.353 Fällen ableiten lassen, ohne juristisch zu werden:

Zwei-Augen-Prinzip auch bei KI-Output. Code, der von einem Coding-Agenten kommt, geht nicht ohne Review live. Eine Doku, die von Claude geschrieben wurde, geht nicht ohne fachliche Prüfung raus. Eine Marktanalyse, die ChatGPT angeliefert hat, wird nicht ungeprüft als Entscheidungsgrundlage zitiert. Das ist banal, wird aber unter Zeitdruck als Erstes weggelassen.
Quellen-Verifikation gehört zum Workflow. Wenn das Modell eine Library, einen Standard, einen Vertrag oder eine Vorschrift zitiert, ist der erste Klick die Primärquelle. Wenn die Primärquelle die zitierte Aussage nicht hergibt, ist der Output unbrauchbar, egal wie gut er klingt.
Audit-Trails als Default. Prompt-Logs, Modell-Version, Antwort-Hash. Klingt aufwendig, ist es aber nicht: Tools wie LangSmith, OpenTelemetry-Integrationen für LLM-Calls oder schlicht ein strukturiertes Logging im eigenen Code reichen aus. Die Frage ist nicht, ob das gebraucht wird, sondern wann der erste Vorfall im eigenen Team kommt.

Die juristische Branche ist mit den 1.353 Fällen einfach am offensichtlichsten dran, weil Gerichtsentscheidungen öffentlich sind und Sanktionen dokumentiert werden. In Produktentwicklung, IT-Security und Verwaltung passieren ähnliche Vorfälle ebenfalls, sie laufen nur unter "Bug", "Fehler in Specs" oder "verfehltes Audit". Der Wert des Charlotin-Trackers liegt darin, dass er für ein Feld die Datenlage sichtbar macht, die in den anderen noch im Dunklen liegt.