Ollama: KI-Modelle lokal und DSGVO-konform betreiben

Ollama ist der einfachste Weg, KI-Modelle auf dem eigenen Rechner zu betreiben. Setup, Modellauswahl und warum das für DSGVO-Compliance relevant ist.

Entwickler:in Projektleiter:in QA / Tester:in Product Owner

23. März 20266 Min. Lesezeit

Warum lokale KI?

Cloud-basierte KI-Dienste wie ChatGPT oder Claude sind praktisch, aber nicht immer eine Option. Sobald vertrauliche Kundendaten, interne Dokumente oder personenbezogene Informationen ins Spiel kommen, wird es mit der DSGVO schnell kompliziert.

Die Alternative: KI-Modelle lokal betreiben, komplett auf dem eigenen Rechner, ohne dass ein einziges Byte an externe Server geht.

Ollama macht genau das einfach. Wer Docker kennt, versteht das Prinzip sofort: Modell pullen, starten, nutzen. Kein Account, keine API-Keys, keine Cloud.

Was ist Ollama?

Ollama ist ein Open-Source-Tool (MIT-Lizenz) zum Herunterladen und Betreiben von KI-Modellen auf dem lokalen Rechner. Es läuft auf macOS, Linux und Windows und bietet eine REST-API, über die andere Anwendungen auf die Modelle zugreifen können.

Die aktuelle Version (v0.18.2, Stand März 2026) unterstützt unter anderem:

Multimodale Modelle wie LLaVA oder Gemma 3, die Text und Bilder gleichzeitig verarbeiten
Web-Search-Integration über ein Plugin-System
Cloud-Modelle per :cloud-Tag, falls man doch mal ein größeres Modell braucht
Parallele Sessions, also mehrere Chats gleichzeitig mit demselben Modell
4-Bit-Quantisierung, die große Modelle auf normaler Consumer-Hardware lauffähig macht

Die Modellbibliothek auf ollama.com/library umfasst Hunderte Modelle: Llama 3.3, DeepSeek-R1, Mistral, Phi-4, Gemma 3 und viele mehr.

Setup in fünf Minuten

Die Installation ist unkompliziert:

Prompt

# macOS: Download von ollama.com oder per Homebrew
brew install ollama

# Modell herunterladen und starten
ollama pull llama3.3

# Chat starten
ollama run llama3.3

Das war's. Kein Docker, kein Python-Setup, keine Konfigurationsdateien. Das Modell wird einmalig heruntergeladen (je nach Größe 2-8 GB) und läuft danach komplett offline.

Welches Modell für welchen Zweck?

Nicht jedes Modell eignet sich für jede Aufgabe. Hier eine Orientierung:

Modell	Größe	Stärke	RAM-Bedarf
Phi-4 Mini	3.8B	Schnelle Antworten, leichtgewichtig	4 GB
Llama 3.3	8B	Allrounder, gute Balance	8 GB
Mistral Small 4	6B aktiv (119B MoE)	Reasoning + Vision + Code	16 GB
DeepSeek-R1	7B-70B	Starkes Reasoning	8-48 GB
Gemma 3	12B	Multimodal (Text + Bild)	12 GB

Faustregel: Mit 16 GB RAM kommt man schon ziemlich weit. Wer regelmäßig größere Modelle nutzen will, sollte 32 GB einplanen.

Die REST-API: Ollama als Backend

Die eigentliche Stärke von Ollama zeigt sich in der Integration. Jedes laufende Modell ist über eine lokale REST-API erreichbar:

Prompt

# Einfache Anfrage an die lokale API
curl http://localhost:11434/api/generate \
  -d '{"model": "llama3.3", "prompt": "Erkläre DSGVO Artikel 25 in drei Sätzen."}'

# OpenAI-kompatible API (funktioniert mit vielen Tools)
curl http://localhost:11434/v1/chat/completions \
  -d '{"model": "llama3.3", "messages": [{"role": "user", "content": "Hallo!"}]}'

Das OpenAI-kompatible API-Format bedeutet: Viele Tools, die eigentlich für ChatGPT gebaut wurden, funktionieren auch mit Ollama. Einfach die API-URL austauschen.

DSGVO und Datenschutz

Der Hauptgrund, warum Ollama für Teams im DACH-Raum interessant ist: Keine Daten verlassen den Rechner. Das vereinfacht Datenschutz-Fragen erheblich:

Keine Auftragsverarbeitung nötig, weil kein externer Dienstleister involviert ist
Keine Datentransfers in Drittländer (relevant seit dem Schrems-II-Urteil)
Volle Kontrolle über die Verarbeitung, auch bei personenbezogenen Daten
Kein Vendor Lock-in, weil die Modelle offen und austauschbar sind

Das bedeutet nicht, dass man sich um gar nichts kümmern muss. Wer personenbezogene Daten verarbeitet, braucht auch lokal eine Rechtsgrundlage und ein Verarbeitungsverzeichnis. Aber die technischen Hürden sind deutlich niedriger als bei Cloud-Lösungen.

Für Entwickler: Ollama lässt sich als lokales Backend in Entwicklungsworkflows einbinden. Die OpenAI-kompatible API macht die Integration in bestehende Tools einfach. Besonders praktisch: Lokale Modelle für Code-Reviews und Dokumentation, ohne dass proprietärer Code an externe Server geht. Mit dem --yes-Flag lässt sich Ollama auch in CI/CD-Pipelines und Skripte einbinden.

Grenzen und Realitätscheck

Lokale Modelle sind nicht die Antwort auf alles. Ein paar ehrliche Einschränkungen:

Qualität: Selbst die besten lokalen Modelle erreichen nicht ganz das Niveau von Claude Opus oder GPT-5.4. Für die meisten Alltagsaufgaben reicht es, für komplexe Analysen eher nicht.
Hardware: Auf einem Laptop mit 8 GB RAM ist die Auswahl eingeschränkt. Richtig Spaß macht es ab 16 GB, ideal ab 32 GB.
Kein Internet: Lokale Modelle haben keinen Webzugriff (es sei denn, man konfiguriert das extra). Für Recherche-Aufgaben ist das ein Nachteil.
Wartung: Modelle müssen manuell aktualisiert werden. Es gibt kein automatisches Update wie bei Cloud-Diensten.

Fazit

Ollama ist aktuell der einfachste Weg, KI-Modelle lokal zu betreiben. Die Installation dauert Minuten, die Modellauswahl ist riesig, und die REST-API macht die Integration in bestehende Workflows unkompliziert. Für Teams mit Datenschutz-Anforderungen ist das ein ernstzunehmendes Werkzeug, nicht nur ein Spielzeug.

Der beste Einstieg: Ollama installieren, ein kleines Modell wie Phi-4 Mini ausprobieren und schauen, welche Aufgaben sich damit sinnvoll lokal erledigen lassen. Die Ergebnisse sind oft überraschend gut.