Grundlagen

Was KI in der Mathematik entdeckt und beweist

Wie DeepMind jahrzehntealte Mathematik-Probleme knackt: vom Matrixmultiplikations-Rekord über das Cap-Set-Problem bis zur Olympiade-Medaille.

28. Mai 202612 Min. Lesezeit

Dieser Artikel ist Teil 3 und Abschluss einer Serie über Probleme, an denen Forschung jahrzehntelang gearbeitet hat und an denen KI heute messbar liefert. Teil 1 zur Naturwissenschaft (AlphaFold, MatterGen, Project Deal) und Teil 2 zur Echtzeit-Physik (Plasma-Fusion, Wettervorhersage, AlphaChip) sind bereits erschienen. Wer wissen will, wie aktuelle allgemeine Reasoning-Modelle bei konkreten Matheaufgaben abschneiden, findet das im News-Artikel Was können KIs gerade? Eine fand neue Mathematik. Hier geht es um etwas anderes: wie DeepMind das Feld mit spezialisierten Systemen Schritt für Schritt erschlossen hat.

1969 zeigte Volker Strassen, dass man zwei 2x2-Matrizen mit sieben statt acht Multiplikationen multiplizieren kann. Das klingt nach einer Kleinigkeit, war aber ein Schock: Generationen von Mathematikern hatten angenommen, schneller gehe es nicht. Strassens Trick wurde zur Grundlage schneller Matrixmultiplikation, und für die nächste Stufe, die 4x4-Matrizen, blieb die beste bekannte Zahl danach 56 Jahre lang stehen. Solche Probleme, leicht zu formulieren und über Jahrzehnte unbewegt, sind das Revier, in das KI gerade vorstößt. Nicht als Taschenrechner, sondern als Werkzeug, das selbst neue Algorithmen und Beweise findet.

flowchart LR
  subgraph entdecken["Entdecken: Algorithmen und Konstruktionen"]
    direction LR
    AT["AlphaTensor<br/>2022 · reines RL"] --> FS["FunSearch<br/>2023 · LLM + Evaluator"] --> AE["AlphaEvolve<br/>2025 · Gemini + Evolution"]
  end
  subgraph beweisen["Beweisen: formale Mathematik in Lean"]
    direction LR
    AP["AlphaProof + AlphaGeometry 2<br/>2024 · IMO-Silber"] --> NX["AlphaProof Nexus<br/>2026 · Erdős-Probleme"]
  end
  AT -.->|gleiche Idee, andere Methode| AP
  classDef discover fill:#1A3A4A,stroke:#00BCEC,color:#BAE6FD
  classDef prove fill:#14532D,stroke:#22C55E,color:#86EFAC
  class AT,FS,AE discover
  class AP,NX prove

Vier Systeme, zwei Stoßrichtungen: Algorithmen und Konstruktionen entdecken (oben), formale Beweise führen (unten).

AlphaTensor (2022): der erste Beweis, dass es geht

Das Problem, das jahrzehntelang galt: Wie schnell lassen sich zwei Matrizen multiplizieren? Naiv braucht eine 4x4-Multiplikation 64 skalare Multiplikationen. Strassens rekursiver Trick drückte das auf 49. Warum das für Entwickler zählt: Matrixmultiplikation steckt in fast jeder numerischen Software, von 3D-Grafik über Physik-Simulationen bis zum Training neuronaler Netze. Weil der Trick rekursiv auf immer größere Matrizen angewandt wird, vervielfacht sich jede eingesparte Multiplikation zu enormer Rechenersparnis. Ob unter 49 möglich ist, war seit den 1970ern offen (Quanta Magazine erklärt die Jagd nach schnelleren Verfahren laienverständlich).

Was AlphaTensor änderte: Im Oktober 2022 veröffentlichte DeepMind in Nature einen Reinforcement-Learning-Agenten auf AlphaZero-Basis, der die Suche nach Algorithmen als Spiel formulierte ("TensorGame"). Der Agent fand für 4x4-Matrizen über einem Körper der Charakteristik 2, also in mod-2-Arithmetik, eine Methode mit 47 Multiplikationen, besser als Strassen. Das war der erste Nachweis, dass eine KI in einem etablierten mathematischen Problemraum tatsächlich neue, bessere Algorithmen entdeckt.

Grenzen: AlphaTensor arbeitete rein mit Reinforcement Learning, ohne Sprachmodell, und sein Durchbruch galt in einer speziellen Arithmetik, nicht im allgemeinen Fall. Es war ein Proof of Concept, kein universelles Werkzeug. Genau hier setzten die nächsten Systeme an.

FunSearch (2023): Code als Entdeckungsmethode

Karten des Spiels SET mit farbigen Symbolen, aus dessen Mathematik das Cap-Set-Problem stammt

Das Problem, das jahrzehntelang galt: Das Cap-Set-Problem lässt sich am Kartenspiel SET erklären. Dort legt man Karten aus und sucht gültige Dreier-Kombinationen, die mathematisch gesehen drei Punkten auf einer Linie entsprechen. Die Frage des Cap-Set-Problems dreht das um: Wie viele Karten kann man hinlegen, ohne dass sich auch nur eine einzige gültige Kombination bilden lässt? Mit jeder zusätzlichen Karten-Eigenschaft (also Dimension) explodiert der Suchraum, schon in Dimension 7 ist er größer als die Zahl der Atome im Universum, Durchprobieren ist also chancenlos. Es ist ein Kernproblem der extremalen Kombinatorik; Terence Tao, einer der bekanntesten Mathematiker der Welt, nannte es 2007 "perhaps my favorite open question" (Quanta Magazine erklärt es anschaulich am Spiel SET).

Was FunSearch änderte: Im Dezember 2023 stellte DeepMind in Nature ein Verfahren vor, das ein Sprachmodell mit einem automatischen Prüfer koppelt. Das Modell schlägt Lösungen als ausführbaren Code vor, der Prüfer bewertet sie, und die besten Vorschläge gehen als Basis in die nächste Runde. Für das Cap-Set-Problem fand FunSearch in Dimension 8 eine Konstruktion der Größe 512, vorher waren nur 496 bekannt. Über rekursive Produkte verbesserte das die beste bekannte untere Schranke, laut DeepMind die größte Verbesserung seit 20 Jahren.

Das Entscheidende war nicht nur das Ergebnis, sondern die Form. Die Lösung ist Code, den Menschen ausführen und nachprüfen können. Anders als bei einem natürlichsprachlichen Beweis, den ein Sprachmodell auch einfach halluzinieren kann, ist hier nichts zu glauben, sondern alles zu verifizieren. DeepMind nannte es das erste Mal, dass eine neue Entdeckung zu einem schwierigen offenen Problem mithilfe eines Sprachmodells gelang. Praktischer Nebeneffekt: FunSearch fand auch bessere Heuristiken für das Online-Bin-Packing, das Verteilen von Objekten unbekannter Größe auf Behälter, ein klassisches Problem aus Betriebssystemen und Logistik.

Grenzen: FunSearch liefert Konstruktionen, keine Beweise. Es findet ein Objekt mit einer gewünschten Eigenschaft, erklärt aber nicht, warum es funktioniert, und kann nicht zeigen, dass etwas unmöglich ist. Und alles hängt am Prüfer: Was sich nicht automatisch bewerten lässt, liegt außerhalb der Reichweite.

AlphaEvolve (2025): 56 Jahre Strassen überwunden

Server-Reihen in einem Rechenzentrum mit blauer Beleuchtung

Das Problem, das jahrzehntelang galt: Strassens 4x4-Wert von 49 Multiplikationen stand seit 1969. AlphaTensor hatte ihn nur in der mod-2-Arithmetik geschlagen, nicht im allgemeinen, komplexwertigen Fall, der für reale Numerik zählt.

Was AlphaEvolve änderte: Am 14. Mai 2025 stellte DeepMind AlphaEvolve vor, einen evolutionären Coding-Agenten auf Gemini-Basis. Das Prinzip ist das von FunSearch, verfeinert: Der Agent schreibt und mutiert ganze Programme, ein Evaluator bewertet sie, die besten überleben. AlphaEvolve fand einen Algorithmus, der 4x4-Matrizen im komplexwertigen Fall mit 48 Multiplikationen multipliziert, erstmals besser als Strassen seit 56 Jahren. Insgesamt verbesserte es den Stand der Technik bei 14 verschiedenen Matrixmultiplikations-Verfahren.

Bemerkenswert ist die zweite Hälfte der Bilanz: der praktische Nutzen. AlphaEvolve fand eine Scheduling-Heuristik für Googles Rechenzentrums-System Borg, die seit über einem Jahr in Produktion läuft und dauerhaft rund 0,7 Prozent der globalen Compute-Ressourcen einspart, also tausende Server. Es optimierte einen Kernel im Gemini-Training (23 Prozent schneller bei dieser Operation, ein Prozent weniger Gesamttrainingszeit), beschleunigte FlashAttention um bis zu 32,5 Prozent und vereinfachte einen Schaltkreis für eine kommende TPU-Generation. Bei offenen mathematischen Problemen hob es unter anderem die bekannte Schranke beim Kissing-Number-Problem in Dimension 11 von 592 auf 593. Das Kissing-Number-Problem fragt anschaulich: Wie viele gleich große Kugeln können eine zentrale Kugel gleichzeitig berühren? In der Fläche sind es sechs Münzen rund um eine Münze, in höheren Dimensionen kennt niemand die exakte Antwort.

Aktueller Stand: Seit dem 10. Dezember 2025 ist AlphaEvolve als Private Preview auf Google Cloud verfügbar. Wer Zugang bekommt, kann eigene Optimierungsprobleme einreichen, bestehend aus Problemspezifikation, Bewertungsfunktion und Startcode. Damit ist es das erste dieser Systeme, das aus dem Forschungslabor in Reichweite normaler IT-Teams rückt.

Grenzen: AlphaEvolve braucht eine präzise, automatisch messbare Bewertungsfunktion. Wo sich die Qualität einer Lösung nicht in eine Zahl gießen lässt, greift der Ansatz nicht. Die Ergebnisse sind oft inkrementell, eine Multiplikation weniger, ein knappes Prozent Ersparnis, kein Erdbeben. Und KI ist hier nicht automatisch unschlagbar: Der Kissing-Number-Erfolg in Dimension 11 wurde im Oktober 2025 von Mikhail Ganzhinov (Aalto-Universität) eingeordnet, der in den Dimensionen 10 und 14 bessere Schranken fand als AlphaEvolve und in Dimension 11 mit 592 nur knapp dahinter lag. Menschliche Mathematik ist nicht abgemeldet.

AlphaProof (2024 bis 2026): Beweise auf Olympiade-Niveau

Tafel voller handgeschriebener mathematischer Formeln

Das Problem, das jahrzehntelang galt: Automatisches Theorembeweisen wird seit den 1950ern verfolgt. Frühe Systeme schafften nur simple formale Ableitungen. Mathematik auf Olympiade-Niveau galt als unerreichbar, weil sie kreativen Einfall verlangt und nicht bloß mechanisches Regelanwenden.

Was AlphaProof änderte: Im Juli 2024 löste DeepMinds kombiniertes System aus AlphaProof und AlphaGeometry 2 vier der sechs Aufgaben der Internationalen Mathematik-Olympiade (IMO) und erreichte 28 von 42 Punkten, Silber-Niveau, einen Punkt unter Gold. Darunter war Aufgabe 6, die schwerste des Wettbewerbs, die nur 5 von über 600 menschlichen Teilnehmern vollständig lösten. AlphaProof arbeitet komplett in der formalen Beweissprache Lean. Das heißt: Jeder Schritt ist maschinell verifizierbar, Halluzinationen sind strukturell ausgeschlossen. Entweder der Beweis geht in Lean durch oder nicht.

Aktueller Stand: Ein Jahr später, bei der IMO 2025, erreichten gleich mehrere KI-Systeme Gold-Niveau mit 35 von 42 Punkten, fünf von sechs Aufgaben. Googles Gemini Deep Think wurde dabei offiziell von der IMO-Jury zertifiziert, OpenAI meldete ein vergleichbares Ergebnis ohne offizielle Einreichung. Bezeichnend ist, woran alle scheiterten: an Aufgabe 6, einem Kombinatorik-Problem.

Wie weit das inzwischen über die Olympiade hinausreicht, deutet ein sehr frischer arXiv-Preprint vom 21. Mai 2026 an (noch nicht begutachtet): AlphaProof Nexus, ein System aus Gemini 3.1 Pro und AlphaProof als Subagent, hat 9 offene Probleme aus der berühmten Sammlung ungelöster Aufgaben des Mathematikers Paul Erdős formal bewiesen, zwei davon seit 56 Jahren offen, zu Kosten von wenigen hundert Dollar pro Problem. DeepMind selbst dämpft die Erwartung: Das sind 9 von gut 350 Erdős-Problemen, und es waren die zugänglicheren. Es ist kein AGI, sondern ein nächster Schritt.

Grenzen: Der Engpass ist nicht das Beweisen, sondern das Formalisieren. Eine natürlichsprachliche Aufgabe muss erst in Lean übersetzt werden, und das kostet Expertenzeit. Das Geometrieproblem P5 der IMO 2024 brauchte über einen Tag, nur um es zu formalisieren. Kombinatorik bleibt das schwache Glied aller Systeme, weil die formale Bibliothek Lean Mathlib dort dünn ist. Und AlphaProof kann Beweise führen, aber nicht entscheiden, welche offenen Probleme überhaupt interessant sind. Das Urteil, woran sich Arbeit lohnt, bleibt menschlich.

Was das im Kundengespräch ändert

Die vier Systeme wirken akademisch, haben aber konkrete Anknüpfungspunkte, sobald man mit Kunden über KI jenseits von Chatbots spricht.

Bei einem Kunden mit Performance-kritischer Software oder Scheduling-Problemen (Logistik, Cloud-Infrastruktur, Compiler, Signalverarbeitung): "AlphaEvolve optimiert bei Google die eigene Infrastruktur, 0,7 Prozent globale Compute-Ersparnis, ein Prozent schnelleres Modelltraining. Seit Dezember 2025 ist es als Private Preview auf Google Cloud zugänglich. Wenn ihr ähnlich strukturierte Optimierungsprobleme mit einer messbaren Zielfunktion habt, lohnt sich der Blick darauf."

Bei einem Kunden mit Safety-kritischer oder regulierter Software (Automotive nach ISO 26262, Medizintechnik nach IEC 62304, Aerospace, kritische Infrastruktur): "AlphaProof beweist auf Olympiade-Niveau in der formalen Sprache Lean, derselben Sprache, in der man auch Software-Korrektheit nachweist. KI-gestütztes formales Beweisen senkt langfristig die Kosten für Korrektheits- und Safety-Nachweise. Das ist ein Bereich, den ihr im Blick behalten solltet, bevor es eure Wettbewerber tun."

Bei einem Kunden aus Operations Research (Produktion, Verpackung, Ressourcenallokation): "Die Bin-Packing-Heuristiken von FunSearch und die Optimierungen von AlphaEvolve betreffen genau die Klasse von Problemen, die in eurer Planung stecken. Bessere Heuristiken übersetzen sich hier direkt in Auslastung und Kosten."

Der rote Faden über alle drei Teile dieser Serie: KI verschiebt gerade die Grenze dessen, was als "nicht automatisierbar" galt, von der Naturwissenschaft über die Echtzeit-Physik bis in die reine Mathematik. Nicht überall, nicht ohne menschliche Prüfung, und selten als großer Sprung. Aber messbar, nachvollziehbar und mit Ergebnissen, die einer Nachprüfung standhalten.

Damit ist die Serie komplett. Zurück zu Teil 1: Naturwissenschaft und Teil 2: Echtzeit-Physik.

Bildnachweise

SET-Karten: Grafik von Miles (English Wikipedia), gemeinfrei, via Wikimedia Commons
Rechenzentrum: Foto von BalticServers.com, CC BY-SA 3.0, via Wikimedia Commons (skaliert)
Formel-Tafel: Foto von Wallpoper, gemeinfrei, via Wikimedia Commons

Quellen12