Nemotron 3 Ultra: offen, nichts für Laptops

Auf der Computex in Taipeh hat Jensen Huang am 1. Juni 2026 das bisher größte offene Sprachmodell von Nvidia vorgestellt: Nemotron 3 Ultra. Rund 500 Milliarden Parameter, Open Weights, kommerziell nutzbar, ab dem 4. Juni 2026 zum Download. Die Schlagzeile schreibt sich von selbst, "größtes offenes US-Modell". Interessanter ist die Frage dahinter: Was fängt ein Team in Deutschland, Österreich oder der Schweiz damit konkret an, und auf welcher Hardware soll das laufen?

Kurz vorweg, weil es die ganze Einordnung trägt: Open Weights heißt nicht "läuft auf deinem Rechner". Ultra ist ein Rechenzentrums-Modell. Und es ist beim Start nicht einmal fertig.

Was Nvidia da genau veröffentlicht

Nemotron 3 Ultra ist ein Mixture-of-Experts-Modell mit rund 500 bis 550 Milliarden Parametern gesamt (die Angaben schwanken je nach Quelle), von denen pro Token nur etwa 50 bis 55 Milliarden aktiv sind. Diese hohe Sparsity ist der Trick, mit dem das Modell trotz seiner Größe schnell bleibt: Artificial Analysis misst über 300 Token pro Sekunde bei DeepInfra, während chinesische Schwergewichte wie DeepSeek oder Kimi oft nur mit 50 bis 100 Token pro Sekunde ausgeliefert werden.

Beim reinen Können liegt Ultra mit einem Intelligence-Index von 48 vorne unter den US-Open-Weights-Modellen, vor Nemotron 3 Super (36) und gpt-oss-120b (33). Die chinesische Spitze erreicht es aber nicht: Kimi K2.6 liegt bei 54. Nvidia baut hier also das beste offene Modell aus den USA, schließt die Lücke zur Frontier aber nicht.

Der wichtigste Haken steht im Kleingedruckten: Ultra erscheint zunächst als Pre-Training-Base-Checkpoint. Es hat kein Instruction-Tuning und kein Alignment durchlaufen. Nvidia beschreibt es ausdrücklich als Ausgangspunkt fürs Fine-Tuning auf eigene Daten, fürs RL-Posttraining oder eigene Instruction-Pipelines. Eine vollständig nachtrainierte Version soll folgen. Es gibt sogar ein eigenes "Nemotron-3-Ultra-Base"-Cookbook im NeMo-Repository. Wer das Base-Modell direkt anchatten will, bekommt rohes Sprachmodell, keinen Assistenten.

Wofür ist es nutzbar, und für wen nicht

Ultra ist in der Startfassung kein Tool für Endnutzer, sondern ein Fundament für Teams, die selbst nachtrainieren. Sinnvoll ist das, wenn ihr ein spezialisiertes Modell auf eigenen, sensiblen Daten aufbauen wollt und die Kompetenz plus Hardware fürs Fine-Tuning habt. Für alle anderen ist die spannendere Nachricht, dass Ultra das obere Ende einer kompletten Familie ist, deren kleinere Mitglieder schon fertig und praxistauglich sind.

Die ganze Nemotron-3-Reihe nutzt eine Hybrid-Architektur aus Mamba-2-Schichten, MoE und punktuellem Attention mit 1-Million-Token-Kontext. Sie ist auf agentische Workflows ausgelegt: mehrstufige Coding-Aufgaben, Security-Triage, Recherche, Multi-Agenten-Systeme. Die realistische Einstiegsfrage lautet also nicht "Ultra oder nicht", sondern "welche Größe für welche Aufgabe":

Modell	Parameter (gesamt / aktiv)	Status	Wofür gedacht
Nano 4B	4 Mrd.	fertig	Edge, einfache Tasks, Geräte mit wenig Speicher
Nano 30B	~32 / ~3 Mrd.	fertig	einfache Merge-Requests, Retrieval, Assistenten
Super 120B	~124 / ~12 Mrd.	fertig (seit 11.03.2026)	komplexere Coding- und Agenten-Aufgaben
Ultra ~500B	~500 bis 550 / ~50 bis 55 Mrd.	Base-Checkpoint ab 04.06.	Fine-Tuning-Fundament, anspruchsvolles Reasoning

Super ist dabei das, was die meisten Teams tatsächlich anfassen werden: vollständig nachtrainiert, mit umschaltbarem Reasoning, Tool-Calling und ausdrücklich auch deutschsprachig.

Die Hardware-Frage, ehrlich gerechnet

Hier trennt sich Marketing von Praxis. "Open Weights" bedeutet, dass ihr die Gewichte herunterladen und auf eigener Infrastruktur betreiben dürft, die Lizenz (NVIDIA Nemotron Open Model License) erlaubt das ausdrücklich auch kommerziell. Es bedeutet nicht, dass die Hardware dafür im Budget liegt.

Kurz zur Einordnung der Zahlen, falls die Kürzel nichts sagen: Eine H100 (und ihr Nachfolger H200) ist Nvidias Rechenzentrums-Grafikkarte für KI, der teure Spezialchip, auf dem große Modelle laufen. Entscheidend ist ihr eigener Speicher, das VRAM: Eine H100 hat 80 GB, eine starke Gaming-Grafikkarte zum Vergleich 16 bis 32 GB. Ein Modell muss komplett in diesen Speicher passen, sonst braucht es mehrere Karten parallel.

Für Super hat Nvidia konkrete Zahlen veröffentlicht: Minimum sind zwei H100 mit je 80 GB, empfohlen werden ein bis acht H100 oder H200, ein typisches vLLM-Setup nutzt vier H100 mit Tensor-Parallelism (also vier Karten, die sich ein Modell teilen). Das ist Server-Klasse, kein Arbeitsplatzrechner.

Für Ultra hat Nvidia noch keine offiziellen VRAM-Zahlen genannt. Eine grobe Abschätzung aus der Modellgröße zeigt aber klar, in welcher Liga man spielt (die Gewichte allein, der KV-Cache bei 1-Million-Kontext kommt obendrauf):

Präzision	Speicher pro Parameter	Gewichte (grob)	Realistisch
BF16	2 Byte	~1 TB	8 bis 16× H100-80GB
FP8	1 Byte	~500 GB	~8× H100-80GB
NVFP4 (4-Bit)	~0,5 Byte	~250 bis 300 GB	~4× H100/H200 oder ein DGX-Node

Selbst in Nvidias eigenem 4-Bit-Format NVFP4, das die Gewichte stark komprimiert, landet man bei mehreren Hundert Gigabyte. Ultra braucht also einen GPU-Cluster oder einen gemieteten Node bei einem Cloud-Anbieter (ein DGX-Node ist ein fertiger Server, in dem mehrere solcher GPUs stecken). Wer wirklich lokal etwas betreiben will, schaut auf die kleineren Modelle: Nano 30B passt in NVFP4 in etwa 18 GB und läuft damit auf einer dicken Workstation-GPU, Nano 4B sogar auf Consumer-Hardware.

Was das für DACH-Teams bedeutet

Der eigentliche Wert für datenschutzbewusste Teams liegt nicht in Ultra, sondern im Prinzip dahinter: ein offenes, kommerziell nutzbares US-Modell, das DSGVO-konform auf eigener oder europäischer Infrastruktur laufen kann, ohne dass Prompts bei OpenAI, Google oder Anthropic landen. Das ergänzt die bekannte Auswahl aus chinesischen Open-Weights-Modellen um eine westliche Option, was bei manchem Einkauf und mancher Betriebsratsdiskussion die einfachere Erzählung ist.

In der Praxis heißt das: Ultra ist für die meisten ein Signal, kein Produkt. Wer heute self-hosten will, fängt bei Nano oder Super an und prüft, ob die Aufgabe das überhaupt rechtfertigt. Wie der Einstieg ins lokale Betreiben konkret aussieht, steht in unserem Artikel zu Ollama: KI-Modelle lokal und DSGVO-konform betreiben.

Am 4. Juni wird sich zeigen, ob das Base-Modell wie angekündigt erscheint und unter welchen Lizenzbedingungen im Detail. Bis dahin gilt: ein bemerkenswertes Release, aber keins, das morgen auf eurem Rechner läuft.