Glossar-Eintrag
Guardrail
Harte Regel im Agent-Workflow, die das LLM nicht umgehen kann: typisch für Validierung, Rechteprüfung oder Budget-Grenzen.
Auch bekannt als: Leitplanke, Safety-Rail
Ein Guardrail ist eine Regel, die außerhalb des LLM-Reasoning läuft und das Verhalten des Agents zwingend begrenzt. Typische Beispiele: "Keine Transaktion über 10.000 Euro ohne manuelle Freigabe", "Nur authentifizierte Nutzer dürfen Bestellungen stornieren", "Maximal 20 Tool-Calls pro Run".
Warum nicht einfach im Prompt?
Prompts sind Empfehlungen, Guardrails sind Gesetz. Ein LLM kann einen Prompt ignorieren oder missinterpretieren. Ein Guardrail im Code stoppt den Agent hart, bevor die Aktion ausgeführt wird. In regulierten Umgebungen (Finanzen, Gesundheit, Compliance) sind Guardrails Pflicht.
Wo Guardrails in Frameworks sitzen
Anthropic nennt sie im Essay "Building Effective Agents" programmatische Gates zwischen Prompt-Chain-Schritten. LangGraph setzt sie als Validierungs-Nodes vor kritischen Nodes um. Salesforce Agent Script hat dafür eigene before_reasoning- und after_reasoning-Blöcke mit konditionalen Transitions.
Verwandte Konzepte
Abgrenzung zu Fallback (definierter Rückzugspfad, wenn etwas scheitert), State-Check (prüft nur, greift nicht ein), Prompt Injection Defense (schützt gegen böswillige Eingaben, nicht gegen fehlgeleitete Agents). Siehe auch unseren Artikel zu Guided Determinism.