Was können KIs? Eine fand neue Mathematik

Ich gebe zu, ich war lange ein KI-Mathe-Skeptiker. Reden konnten die Modelle, das war beeindruckend. Aber rechnen? Wer einem frühen ChatGPT eine mehrstellige Multiplikation gab, bekam voller Überzeugung eine falsche Zahl zurück. Mein Fazit damals: nett zum Texten, aber bei allem, wo es auf exakte Zahlen ankommt, lieber selbst nachrechnen.

In den letzten Monaten ist dieses Bild für mich gekippt. Und diese Woche kam eine Meldung, die selbst meine Restskepsis ins Wanken brachte.

Was passiert ist

Ein internes Reasoning-Modell von OpenAI hat ein offenes mathematisches Problem geknackt, an dem sich die Fachwelt fast 80 Jahre festgebissen hatte: das "planar unit distance"-Problem, das Paul Erdős 1946 formulierte. Vereinfacht gefragt: Wenn man n Punkte in einer Ebene verteilt, wie viele Punktepaare können maximal exakt denselben Abstand zueinander haben?

Über Jahrzehnte galt die Annahme, ein Quadratgitter sei die optimale Anordnung. Das Modell widerlegte das. Es fand eine neue Familie von Konstruktionen, die das Gitter schlägt, und es bewies das, indem es Konzepte aus der algebraischen Zahlentheorie auf ein geometrisches Problem übertrug. Also genau die Art von querdenkendem Brückenschlag, die man bisher menschlichen Mathematikern zugeschrieben hat.

Wichtig: Das ist nicht nur eine Behauptung aus dem OpenAI-Marketing. Mehrere unabhängige Mathematiker haben den Beweis geprüft und für korrekt befunden. Sie weisen zugleich darauf hin, dass die Argumentation auf bestehenden Ideen anderer Forscher aufbaut. Es ist also kein Beweis aus dem Nichts, aber ein echter, nachvollziehbarer Schritt.

Warum das mehr ist als die letzte solche Meldung

OpenAI hatte sich auf diesem Feld schon mal blamiert. Im Oktober hieß es, ein Modell habe gleich zehn ungelöste Erdős-Probleme geknackt. Beim Nachschauen stellte sich heraus: Das Modell hatte die Lösungen nur in der vorhandenen Literatur wiedergefunden, nicht selbst erarbeitet. Peinlich, und ein gutes Beispiel dafür, warum man bei solchen Schlagzeilen genau hinsehen sollte.

Diesmal ist es anders. Der Beweis wurde extern verifiziert, und das Ergebnis war vorher nicht bekannt. Genau dieser Unterschied, zwischen "hat etwas Bekanntes wiedergefunden" und "hat etwas Neues hergeleitet", ist der eigentliche Fortschritt.

Was sich beim Rechnen wirklich geändert hat

Zurück zu meiner alten Skepsis. Warum waren LLMs anfangs so schlecht in Mathe, und warum sind sie es heute oft nicht mehr?

Der Kern des Problems: Ein klassisches Sprachmodell sagt das nächste wahrscheinliche Wort voraus. Es "rechnet" nicht, es schätzt, welche Ziffernfolge plausibel klingt. Bei einfachen Aufgaben klappt das, bei "347 mal 891" wird daraus geraten. Daher der alte Eindruck: Reden ja, rechnen nein.

Zwei Entwicklungen haben das verschoben:

Erstens Werkzeuge. Moderne Modelle rechnen nicht mehr im Kopf, sondern schreiben bei Bedarf Code, führen ihn aus und lesen das exakte Ergebnis zurück. Statt eine Zahl zu raten, lassen sie einen Taschenrechner laufen. Das allein hat das Problem mit der reinen Arithmetik weitgehend gelöst.

Zweitens Reasoning-Modelle. Statt sofort zu antworten, denken sie in Schritten, probieren Wege durch, verwerfen Sackgassen. Dieser Ansatz, kombiniert mit Reinforcement Learning und mehr Rechenzeit zur Antwortzeit, hat die Fähigkeit zu mehrstufigen Beweisen deutlich verbessert.

Der sichtbarste Beleg dafür kam schon im Juli 2025: Ein experimentelles OpenAI-Modell erreichte bei der Internationalen Mathematik-Olympiade Goldmedaillen-Niveau, 35 von 42 Punkten, fünf von sechs Aufgaben gelöst. Unter denselben Bedingungen wie die menschlichen Teilnehmer, ohne Internet und ohne Hilfsmittel. Google DeepMind erreichte mit Gemini im selben Zeitraum ebenfalls Gold. Was 2024 noch Silber-Niveau war, wurde binnen eines Jahres zum Goldstandard.

Die nötige Bodenhaftung

So beeindruckend das ist, ein paar Dinge gehören dazugesagt.

Ein einzelner verifizierter Beweis macht ein Modell noch nicht zum verlässlichen Mathematiker. Solche Spitzenleistungen entstehen oft mit viel Rechenzeit, mehreren Anläufen und unter sorgfältig gewählten Bedingungen. Im Alltag, in einer normalen Chat-Antwort, sieht die Trefferquote anders aus.

Und der praktische Rat von früher gilt weiter, nur etwas abgeschwächt: Bei allem, wo es auf exakte Zahlen ankommt, lohnt der Blick darauf, ob das Modell tatsächlich gerechnet (also Code ausgeführt) oder nur geschätzt hat. Die guten Tools zeigen das inzwischen an.

Was sich aber wirklich geändert hat, ist die Richtung. Mathematik galt lange als die Domäne, in der LLMs prinzipiell scheitern müssten, weil sie eben keine Rechenmaschinen sind. Dass ein Modell nun selbstständig neue, von Menschen bestätigte Mathematik produziert, zeigt: Diese Grenze war keine prinzipielle, sondern eine vorläufige. Für die Frage, was man KI in den nächsten Monaten zutrauen sollte, ist das eine der ehrlicheren Standortbestimmungen.