Microsofts MAI-Modelle in GitHub Copilot

Auf der Build 2026 hat Microsoft am 2. Juni die ersten komplett selbst trainierten KI-Modelle vorgestellt. Für Entwickler ist eines davon sofort spürbar: MAI-Code-1-Flash taucht ab sofort im Modell-Picker von GitHub Copilot auf, ohne dass man etwas einrichten muss. Damit schickt Microsoft erstmals ein eigenes Hausmodell in den Editor, an dem bisher vor allem OpenAI- und Anthropic-Modelle hingen.

Die spannendere Frage steckt hinter der Schlagzeile. Es geht nicht nur um ein weiteres Modell in einer ohnehin langen Liste, sondern um zwei Dinge gleichzeitig: Microsoft macht sich Stück für Stück von OpenAI unabhängig, und es baut sich damit einen Hebel gegen die eigenen Compute-Kosten.

Was Microsoft vorgestellt hat

Hinter den Modellen steht das "AI Superintelligence Team" um Mustafa Suleyman. Insgesamt sieben neue MAI-Modelle wurden gezeigt, für unsere Zielgruppe sind zwei davon relevant:

Modell	Zweck	Verfügbarkeit
MAI-Code-1-Flash	Schnelles, günstiges Coding-Modell	GitHub Copilot, Modell-Picker in VS Code
MAI-Thinking-1	Reasoning-Modell (MoE, 35 Mrd. aktive Parameter, 256k Kontext)	Private Preview in Microsoft Foundry

Der Rest der Familie zielt auf andere Aufgaben: MAI-Image-2.5 und eine Flash-Variante für Bildgenerierung, MAI-Voice-2 für Sprachausgabe in 15 Sprachen und MAI-Transcribe-1.5 für Transkription in 43 Sprachen. Für den Coding-Alltag sind die beiden in der Tabelle der Kern.

Bemerkenswert ist, was Microsoft betont: Beide Modelle seien "end-to-end" selbst gebaut, auf sauber lizenzierten Daten und ohne Distillation aus Drittmodellen. In keiner der Ankündigungen taucht OpenAI auf. Das ist nach Jahren der engen Verzahnung eine deutliche Ansage.

MAI-Code-1-Flash: das Modell im Copilot-Picker

MAI-Code-1-Flash ist als schnelles, günstiges Coding-Modell positioniert. Microsoft hat es nach eigenen Angaben direkt auf den produktiven Copilot-Harnesses trainiert, also auf der Umgebung, in der das Modell später auch arbeitet. Es kennt die Werkzeuge und Abläufe von agentischen Coding-Sessions damit von Anfang an.

Die Benchmark-Zahlen kommen vom Hersteller selbst und sind entsprechend einzuordnen: Microsoft beziffert einen Vorsprung von 16 Punkten auf SWE-Bench Pro gegenüber Claude Haiku 4.5 (51,2 Prozent gegen 35,2 Prozent) und verspricht, schwierige Aufgaben mit bis zu 60 Prozent weniger Token zu lösen. Der Vergleich gegen Haiku ist kein Zufall: Es geht ausdrücklich um die Liga der schnellen, sparsamen Modelle, nicht um die Frontier-Modelle für die harten Fälle.

Praktisch heißt das: Copilot-Einzelnutzer finden das Modell ab sofort im Picker (und im Auto-Picker, der je nach Aufgabe selbst wählt). Für Routinearbeit, schnelle Completions und einfache Agenten-Schritte ist ein günstiges Hausmodell genau das, was die Kostenrechnung entlastet. Ob und wann MAI-Code-1-Flash auch in den Business- und Enterprise-Plänen ankommt, hat Microsoft offengelassen, ebenso konkrete Preise oder den Token-Verbrauch.

MAI-Thinking-1: noch hinter verschlossenen Türen

Das zweite interessante Modell ist MAI-Thinking-1, Microsofts erstes eigenes Reasoning-Modell. Es ist deutlich größer und auf mehrstufiges Denken ausgelegt. Auch hier nur Herstellerangaben: 97,0 Prozent auf AIME 2025, gleichauf mit führenden Modellen bei den Software-Engineering-Benchmarks, und in Blindvergleichen angeblich gegenüber Claude Sonnet 4.6 bevorzugt.

Im Gegensatz zu Flash ist MAI-Thinking-1 noch nicht breit verfügbar, sondern läuft als Private Preview in Microsoft Foundry mit der gewohnten Chat-Completions-API und Function Calling. Für Teams ist das vorerst ein Ausblick, kein Werkzeug. Aber es zeigt die Richtung: Microsoft will nicht nur das billige Schnellmodell selbst stellen, sondern auch das teure Reasoning-Pferd.

Die eigentliche Nachricht: Microsoft entkoppelt sich

Warum baut Microsoft eigene Modelle, wenn es über die OpenAI-Partnerschaft Zugriff auf die stärksten Modelle am Markt hat? Die Antwort steht in der Kostenrechnung. Agentische Coding-Workflows verbrennen Compute, und zwar mehr, als viele Nutzer im Monat zahlen. Das war schon der Auslöser, als GitHub im April die Copilot-Pläne umgebaut und Token-Billing angekündigt hat. Ein eigenes, sparsames Modell wie MAI-Code-1-Flash ist die andere Seite derselben Medaille: Wenn jede Anfrage Geld kostet, will Microsoft die günstigen Anfragen nicht mehr an Fremdmodelle weiterreichen.

Für Entwickler ist das zweischneidig. Mehr Auswahl im Picker ist gut, und ein schnelles Hausmodell für Routineaufgaben kann den Token-Verbrauch real senken. Gleichzeitig wandert ein weiteres Stück Kontrolle über die eigene Werkbank zum Plattformanbieter, der jetzt Modell, Editor, Abrechnung und Cloud in einer Hand hält.

Was das für DACH-Teams heißt

Drei Dinge sind konkret abzuleiten:

Modellwahl bewusst treffen. Der Auto-Picker entscheidet sonst für dich. Wer Kosten und Qualität im Blick behält, prüft, welche Aufgaben wirklich ein Frontier-Modell brauchen und welche ein schnelles Modell wie Flash erledigt. Das ist dieselbe Logik, die wir schon beim Senken der Inferenzkosten beschrieben haben.
Benchmarks nicht für bare Münze nehmen. Alle Zahlen stammen von Microsoft. Bevor ihr ein Modell für einen produktiven Workflow festlegt, testet es an euren eigenen Aufgaben, nicht an SWE-Bench.
Abhängigkeit beobachten. Microsofts Eigenmodelle sind proprietär und an die Plattform gebunden. Wer Wert auf Wahlfreiheit und Datensouveränität legt, sollte ein zweites Standbein pflegen, etwa ein lokales Modell über Ollama für sensible Aufgaben. Das bleibt unabhängig davon, welches Hausmodell als Nächstes im Picker auftaucht.

Unterm Strich: MAI-Code-1-Flash ist kein Erdbeben, aber ein klares Signal. Microsoft baut sich aus der OpenAI-Abhängigkeit heraus und schiebt die Kostenfrage damit auf eine neue Ebene. Für den Alltag heißt das vor allem: noch ein Modell mehr, über das man eine bewusste Entscheidung treffen sollte, statt den Picker raten zu lassen.