KI-Code: Fast richtig reicht nicht

27 % des Produktions-Codes kommt von KI. Die Qualität? 1,7x mehr Fehler pro PR als bei menschlichem Code. Worauf du beim Review achten musst.

Rund 27 % des Codes, der in Produktion landet, wurde von KI generiert. Das zeigt eine Erhebung von DX unter 121.000 Entwicklern bei über 450 Unternehmen. Sonar kommt in einer eigenen Studie sogar auf 42 % des gesamten committeten Codes. Die Zahlen steigen schnell.

Das Problem ist nicht die Menge. Das Problem ist, was in diesen 27 % steckt.

1,7x mehr Fehler pro Pull Request

CodeRabbit hat 470 Open-Source-PRs analysiert und KI-generierten Code mit menschlich geschriebenem verglichen. Die Ergebnisse:

  • 10,8 Probleme pro PR bei KI-Code vs. 6,4 bei menschlichem Code
  • 3x mehr Lesbarkeits-Probleme (Namensgebung, Formatierung, Struktur)
  • 1,75x mehr Logikfehler (falsche Kontrollflüsse, fehlende Bedingungen)
  • 8x mehr unnötige I/O-Operationen
  • 1,57x mehr Sicherheitslücken

Veracode hat in einem separaten Test mit über 100 LLMs festgestellt: 45 % aller KI-generierten Code-Samples haben Sicherheitstests nicht bestanden. Bei Java lag die Quote sogar bei 72 %.

Das "Fast richtig"-Problem

Der häufigste Frust: KI-Code sieht gut aus, compiliert, läuft, und hat trotzdem einen subtilen Fehler. IEEE Spectrum nennt das "Silent Failures": Code der funktioniert, aber nicht das tut, was er soll.

Typische Muster:

Logik die plausibel aussieht, aber falsch ist. Ein if-Statement, das den Edge Case nicht abfängt. Eine Schleife, die eins zu wenig iteriert. CodeRabbit schreibt dazu: "Diese Fehler sind die leichtesten, die man im Review übersieht, weil sie wie vernünftiger Code aussehen, solange man sie nicht Schritt für Schritt durchgeht."

Fehlende Absicherungen. Null-Checks, die weggelassen wurden. Error-Handling, das nur den Happy Path abdeckt. Early Returns, die fehlen. Das sind keine exotischen Bugs, das sind die Dinge, die nachts im Pager landen.

Sicherheit als Nachgedanke. Hardcodierte Credentials, fehlende Input-Validierung, unsichere Defaults. Veracode misst: KI-Code hat 2,74x mehr XSS-Schwachstellen und 1,88x mehr Probleme bei der Passwort-Behandlung als menschlicher Code.

Performance-Antipatterns. Code der funktioniert, aber 8x mehr I/O-Aufrufe macht als nötig. KI bevorzugt einfache Patterns, auch wenn sie ineffizient sind.

Warum das passiert

KI-Modelle generieren Code, der syntaktisch korrekt und stilistisch sauber ist. Sie sind gut darin, bekannte Patterns zu reproduzieren. Was ihnen fehlt:

  • Codebase-Kontext. Das Modell kennt deine Architektur nicht, deine Konventionen nicht, deine existierenden Abstraktionen nicht. Es generiert Code, der isoliert funktioniert, aber nicht in dein System passt.
  • Geschäftslogik. "Kunden mit Plan X dürfen Feature Y nicht nutzen" steht nirgendwo im Training. KI rät, und rät oft fast richtig.
  • Defensive Programmierung. KI optimiert auf "compiliert und sieht richtig aus", nicht auf "überlebt den schlimmsten Edge Case".

Was du beim Review anders machen musst

Klassisches Code-Review prüft Stil, Konsistenz, offensichtliche Bugs. Bei KI-Code verschiebt sich der Fokus.

Logik zuerst. Geh den Code Schritt für Schritt durch. Nicht überfliegen, nicht "sieht gut aus" sagen. Die gefährlichsten Bugs in KI-Code sind die, die plausibel aussehen.

Error-Handling prüfen. Was passiert bei null? Bei einem leeren Array? Bei einem Timeout? KI-Code deckt den Happy Path zuverlässig ab, den Rest oft nicht.

Security-Checkliste. Input-Validierung, Authentication, Authorization, keine hardcodierten Secrets. Bei KI-Code explizit prüfen, nicht annehmen.

Performance hinterfragen. Wie oft wird diese Funktion aufgerufen? Macht sie unnötige Datenbankabfragen? KI wählt das einfachste Pattern, nicht das effizienteste.

Integration prüfen. Passt der Code zu den existierenden Abstraktionen? Oder hat die KI etwas Neues erfunden, das es schon gibt?

Automatisierung als erste Verteidigungslinie

Formatierung, Linting und statische Analyse sollten in der CI-Pipeline laufen, bevor ein Mensch den Code sieht. Das filtert die trivialen Probleme raus (Formatierung, Namensgebung, einfache Security-Patterns) und gibt dem Reviewer Zeit für die schwierigen Fragen.

KI-Review-Tools wie CodeRabbit oder GitHub Copilot Code Review können als zweite Stufe dienen. Sie finden Style-Probleme und offensichtliche Bugs zuverlässig. Bei Logikfehlern und Architektur-Entscheidungen stoßen sie an ihre Grenzen. Mehr dazu in unserem Artikel KI-Produktivität: Warum die Zahlen trügen.

Die Vertrauenslücke

Sonar hat 2026 einen bemerkenswerten Widerspruch gemessen: 96 % der Entwickler vertrauen KI-generiertem Code nicht vollständig, aber nur 48 % verifizieren ihn tatsächlich. In der Stack Overflow Developer Survey 2025 sagt nur noch 29 % der Entwickler, dass sie KI-Code vertrauen, ein Rückgang gegenüber den Vorjahren. Erfahrene Entwickler sind am skeptischsten.

Das heißt: Die meisten wissen, dass KI-Code Fehler hat. Aber die Hälfte prüft trotzdem nicht gründlich. Wer diese Lücke schließt, hat einen echten Qualitätsvorteil.

Für Entwickler: Behandle KI-generierten Code wie den Code eines neuen Teammitglieds: wahrscheinlich funktional, aber du musst alles durchgehen. Ein konkreter Tipp: Schreib den Prompt, mit dem du den Code generiert hast, in die PR-Beschreibung. Das hilft dem Reviewer, deine Intention zu verstehen, und macht die "Warum so?"-Frage beantwortbar.

Quellen