HTML statt Markdown? Anthropics Formatdebatte

Thariq Shihipar leitet das Engineering von Claude Code bei Anthropic. Am 8. Mai hat er auf X einen Post veröffentlicht, der in 16 Stunden 4,4 Millionen Views erreichte: "The Unreasonable Effectiveness of HTML". Seine These: Markdown sei als Ausgabeformat für KI-Agenten überholt. HTML könne mehr und sollte der neue Standard werden.

Der Post hat eine Debatte ausgelöst, die über Hacker News, LinkedIn und Threads rollt. Das Thema betrifft alle, die mit KI-Agenten arbeiten. Aber Shihipars Argument greift an einer entscheidenden Stelle zu kurz.

Was Shihipar sagt

Markdown ist seit der GPT-4-Ära das Standardformat für KI-Ausgaben. Das hat historische Gründe: Bei 8.192 Tokens Kontextfenster zählte jedes Zeichen, und Markdown ist extrem platzsparend. Überschriften, Listen, Codeblöcke, alles mit wenigen Sonderzeichen darstellbar.

Shihipars Argument: Diese Sparsamkeit war nötig, als Kontextfenster klein waren. Heute haben Modelle 200.000 Tokens und mehr. Markdown ist nicht mehr die richtige Wahl, wenn ein Agent einen Code-Review visualisieren, ein Architekturdiagramm zeichnen oder einen interaktiven Report erstellen soll.

HTML kann Farben, CSS-Styling, SVG-Diagramme, JavaScript-Interaktionen und verschachtelte Layouts. Markdown kann das alles nicht. Um das zu belegen, hat Shihipar 20 HTML-Dateien veröffentlicht, die Claude Code erzeugt hat: PR-Reviews mit farblich codierten Diff-Annotationen, Architekturdiagramme, interaktive Dashboards. Die Sammlung liegt auf thariqs.github.io/html-effectiveness.

Shihipar ist nicht allein. Andrej Karpathy hat etwa zur gleichen Zeit empfohlen, LLM-Output als HTML zu erzeugen und im Browser zu betrachten. Simon Willison, einer der bekanntesten Stimmen in der Developer-Community, hat den Post aufgegriffen und direkt angefangen, mit HTML-Ausgaben zu experimentieren. Shihipars eigene Begründung ist dabei erfrischend ehrlich: "I tend to not actually read more than a 100-line markdown file, and I certainly am not able to get anyone else in my organization to read it."

Wo Shihipar recht hat

Für einen bestimmten Anwendungsfall hat er vollkommen recht: Wenn ein KI-Agent etwas für einen Menschen erzeugt, das dieser anschauen, lesen oder durchklicken soll, dann ist HTML oft die bessere Wahl.

Ein Code-Review als HTML-Datei mit farblich markierten Änderungen, Severity-Badges und ausklappbaren Erklärungen ist nützlicher als eine flache Markdown-Liste. Ein Architekturdiagramm als inline SVG ist informativer als ein ASCII-Diagramm. Ein Report mit Inhaltsverzeichnis und Sprungmarken lässt sich schneller navigieren als ein langes Markdown-Dokument.

Wer Claude Code nutzt und die HTML-Beispiele von Shihipar anschaut, sieht den Unterschied sofort. Für alles, was am Ende jemand im Browser öffnet, ist HTML das ausdrucksstärkere Format.

Wo er falschliegt

Die Debatte hat einen blinden Fleck: Sie behandelt KI-Agenten, als würden sie nur mit Menschen kommunizieren. In der Praxis sprechen Agenten aber mindestens genauso oft mit anderen Agenten oder speichern sich selbst Daten. Und für diese Kommunikation ist HTML das falsche Format.

Erstens der Token-Verbrauch. HTML ist geschwätzig! Laut einer Analyse von web2md.org reduziert die Konvertierung von HTML zu Markdown den Token-Verbrauch um rund 68 Prozent bei sauberem Content, bei echten Webseiten sogar bis zu 87 Prozent. Andersherum: Sauberes HTML kostet zwei- bis dreimal so viele Tokens wie äquivalenter Markdown-Text. Mit CSS und JavaScript wird es das Acht- bis Zehnfache. Nicht umsonst hat Cloudflare ein "Markdown for Agents"-Feature gebaut, das HTML vor der Weitergabe an KI-Systeme zu Markdown strippt. Bei einem einzelnen Prompt ist das egal. Aber in einem Agenten-Workflow, in dem Output eines Schritts zum Input des Nächsten wird, summiert sich das schnell. Wichtig: Wenn man hier von x-mal mehr Token-Verbrauch redet, meint man die Verarbeitung der Dateien, nicht der ganzen Aufgabe. Wenn die KI also 1 Million Token braucht und 50k Token für das Ergebnis, dann bleiben die 1 Millionen Token vermutlich konstant, aber aus 50k Token für die Antwort werden vielleicht 100k Token. Trotzdem summiert es sich schnell auf.

Zweitens die Fehleranfälligkeit. HTML hat viele Freiheitsgrade. Nicht geschlossene Tags, falsch verschachtelte Elemente, vergessene Anführungszeichen bei Attributen. Wenn ein Agent HTML erzeugt, das ein anderer Agent parsen soll, steigt die Wahrscheinlichkeit für Parsing-Fehler. Markdown hat eine bewusst kleine Spezifikation. Weniger kann schiefgehen. Dazu kommt ein Sicherheitsaspekt, den Kurtis Redux in seinem Gegenartikel "The Unreasonable Ineffectiveness of HTML" hervorhebt: HTML-Output kann JavaScript enthalten. Wer das ungeprüft öffnet, führt KI-generierten Code im Browser aus, mit allen Risiken von XSS bis Datenleck.

Und drittens: Selbst bei 200.000 oder 1 Mio. Tokens ist das Kontextfenster eine endliche Ressource. Jedes Token, das für CSS-Klassen, HTML-Boilerplate oder JavaScript-Logik draufgeht, fehlt für den eigentlichen Inhalt. Bei einer Pipeline, in der ein Agent recherchiert, ein zweiter zusammenfasst und ein dritter einen Report schreibt, wird jede Zwischenstufe in das Kontextfenster des nächsten Schritts geladen. HTML-Overhead in den Zwischenschritten verschwendet Kapazität, die für Inhalt gebraucht wird.

Die richtige Frage ist eine andere

Die Debatte stellt die falsche Frage. Es geht nicht um HTML oder Markdown. Es geht darum, wer den Output liest.

Wenn ein Mensch das Ergebnis im Browser öffnet, also Reports, Visualisierungen, Dashboards: HTML, wenn die zusätzliche Ausdruckskraft gebraucht wird. Shihipars Beispiele zeigen das überzeugend.

Wenn ein anderer Agent das Ergebnis weiterverarbeitet, also Pipelines, Zwischenergebnisse, strukturierte Daten: Markdown oder noch besser JSON. Kompakt, fehlertolerant, leicht zu parsen. In GPT-basierten Benchmarks zur Tabellenextraktion lag Markdown bei 60,7 Prozent Genauigkeit, HTML bei 53,6 Prozent. RAG-Pipelines mit Markdown-Input zeigen bis zu 35 Prozent höhere Genauigkeit als mit HTML. Das Modell versteht Markdown schlicht besser, weil weniger Rauschen drin ist.

Und für Systemprompts und Instruktionen bleibt Markdown die richtige Wahl. Es lässt sich versionieren, diffen und in Code-Reviews prüfen. Visual Studio und VS Code setzen 2026 auf Markdown als Instruktionsformat für KI-Agenten. Das kommt nicht von ungefähr.

Was das für den Alltag heißt

Wer mit Claude Code arbeitet, kann die HTML-Ausgabe ab sofort nutzen, wo sie Sinn ergibt. Ein Prompt wie "Erstelle einen HTML-Report für diesen PR mit farbcodierten Diffs und Severity-Badges" liefert tatsächlich bessere Ergebnisse als die Markdown-Variante. Shihipars Beispielsammlung ist ein guter Startpunkt, um die Möglichkeiten auszuloten.

Aber wer Agenten-Workflows baut, in denen Output zu Input wird, sollte bei Markdown oder strukturiertem JSON bleiben. Die Token-Kosten und die Fehleranfälligkeit von HTML in der Mitte einer Pipeline sind den visuellen Mehrwert nicht wert, weil den ohnehin kein Mensch sieht.

Die sinnvolle Faustregel: HTML am Ende der Kette, wenn ein Mensch hinschaut. Markdown oder JSON in der Mitte, wenn Maschinen weiterarbeiten.