Lokale KI: Deine Daten bleiben bei dir

NPUs mit bis zu 85 TOPS, Open-Source-Modelle die auf Laptops laufen, und der EU AI Act ab August 2026. Warum On-Device AI für DACH-Teams relevant wird.

28. März 20266 Min. Lesezeit

Wenn dein Team KI-Tools nutzt, fließen Daten an externe Server. Prompts, Code-Snippets, Dokumente, alles landet bei OpenAI, Google oder Anthropic. Für viele Anwendungen ist das akzeptabel. Aber was, wenn es um Kundendaten geht? Patientendaten? Interne Strategiedokumente?

Die Antwort muss nicht "keine KI" lauten. Die Antwort kann "KI, aber lokal" sein.

Was sich bei der Hardware getan hat

Aktuelle Laptops und Desktops kommen mit dedizierten KI-Beschleunigern (NPUs, Neural Processing Units). Die Leistung hat sich in einem Jahr fast verdoppelt:

Hersteller	Chip	NPU-Leistung	Status
Qualcomm	Snapdragon X2 Elite	80-85 TOPS	Verfügbar H1 2026
AMD	Ryzen AI 9 HX 475	60 TOPS	Angekündigt (CES 2026)
Intel	Core Ultra 300 (Panther Lake)	50 TOPS	2026
Apple	M4	38 TOPS	Verfügbar

Zum Vergleich: Microsofts Mindestanforderung für "Copilot+ PC" liegt bei 40 TOPS. Die meisten neuen Business-Laptops übertreffen das bereits.

Welche Modelle lokal laufen

Die Software-Seite hat aufgeholt. Ollama (52 Millionen Downloads pro Monat, Stand Q1 2026) macht es einfach, Open-Source-Modelle auf dem eigenen Rechner zu betreiben. Eine Übersicht zu Ollama findest du in unserem Ollama-Artikel.

Was heute lokal funktioniert:

Code Completion: CodeLlama 7B erreicht in Produktionsumgebungen 45 % Acceptance Rate
Zusammenfassung und Analyse: Qwen 3 (8B), Gemma 3 (4B), Llama 4 Scout (8B)
Mathematik und Reasoning: Phi-4 (14B) übertrifft auf dem MATH-Benchmark sogar GPT-5
Multimodal: Gemma 3 ab 4B verarbeitet Text und Bilder

Ein 7B-Modell mit Q4-Quantisierung braucht etwa 3,5 GB RAM. Das läuft auf jedem aktuellen Laptop.

Was lokal noch nicht geht

Frontier-Modelle wie GPT-5, Claude Opus oder Gemini Ultra laufen nicht lokal. Für sehr lange Kontextfenster, komplexe Multi-Step-Aufgaben und hochwertige Bild-/Video-Generierung braucht man weiterhin Cloud-Infrastruktur.

Auch Model-Updates sind ein Thema: Cloud-Modelle werden sofort serverseitig aktualisiert, lokale Modelle erfordern manuelle Updates.

Warum das für Compliance wichtig ist

DSGVO

Wenn KI-Modelle lokal laufen, verlassen keine Daten die eigene Infrastruktur. Das vereinfacht die DSGVO-Compliance erheblich:

Kein Auftragsverarbeitungsvertrag (AVV) mit US-Cloud-Anbietern nötig
Kein Risiko durch den US CLOUD Act
Keine Schrems-II-Problematik bei transatlantischem Datentransfer
Volle Kontrolle über Verschlüsselung, Zugriffsrechte und Audit-Logs

Die DSGVO-Bußgelder steigen: 2025 wurden 2,3 Milliarden Euro verhängt, 38 % mehr als im Vorjahr. Das Risiko wird größer, nicht kleiner.

EU AI Act (ab August 2026)

Ab dem 2. August 2026 gelten die vollen Anforderungen des EU AI Act für Hochrisiko-KI-Systeme: Risikomanagement, Daten-Governance, Dokumentation, Transparenz, menschliche Aufsicht. Strafen gehen bis 35 Millionen Euro oder 7 % des weltweiten Jahresumsatzes.

Lokale Deployments geben dir volle Kontrolle über diese Anforderungen. Aber: On-Premise verlagert auch die volle rechtliche Verantwortung auf dein Unternehmen. Du brauchst Governance-Prozesse, nicht nur Hardware.

Der Hybrid-Ansatz

Die Empfehlung ist nicht "alles lokal" oder "alles in der Cloud", sondern eine bewusste Aufteilung:

Lokal: Häufige, einfache Aufgaben mit sensiblen Daten. Code Completion mit internem Code, Dokumentenanalyse mit Kundendaten, Zusammenfassungen von vertraulichen Meetings.

Cloud: Komplexe Reasoning-Aufgaben, bei denen Frontier-Modelle einen echten Unterschied machen und die Daten nicht sensitiv sind. Recherche, öffentliche Code-Reviews, Content-Generierung.

Die Kostenseite spricht ebenfalls für den Hybrid-Ansatz: Lenovo-Berechnungen zeigen, dass On-Premise pro Million Tokens etwa 8x günstiger ist als Cloud IaaS und bis zu 18x günstiger als Cloud APIs. Der Break-Even liegt bei unter 4 Monaten.

Erste Schritte

Hardware prüfen: Hat dein Laptop eine NPU? (Gerätemanager > Systemgeräte > "NPU" oder "Neural"). Auch ohne NPU funktionieren lokale Modelle, die NPU macht sie schneller.
Ollama installieren: brew install ollama (macOS) oder von ollama.com. Details in unserem Ollama-Artikel.
Ein Modell testen: ollama run llama3.2 für einen ersten Chat. ollama run codellama für Code-Aufgaben.
IDE-Integration: Viele Editoren (VS Code mit Continue, Cursor) können lokale Modelle über Ollama als Backend nutzen.
Policy definieren: Welche Daten dürfen in die Cloud, welche müssen lokal bleiben? Diese Entscheidung sollte dokumentiert sein.

Für Entwickler: Fang mit Code Completion an. CodeLlama 7B über Ollama + Continue-Extension in VS Code ist in 10 Minuten eingerichtet. Die Qualität reicht für Routine-Aufgaben. Für komplexe Architektur-Fragen wirst du weiterhin Cloud-Modelle nutzen, aber dein interner Code bleibt lokal.