OpenAI Realtime API wird GA: Voice mit GPT-5-Reasoning

OpenAI veröffentlicht drei Audio-Modelle: GPT-Realtime-2 mit GPT-5-Reasoning, Translate und Whisper. Die Realtime API ist jetzt GA.

3 Min. Lesezeit

OpenAI hat die Realtime API aus der Beta geholt und drei neue Audio-Modelle veröffentlicht. Das klingt nach einem trockenen API-Update, ist aber ein ziemlich großer Schritt: GPT-5-Reasoning in Echtzeit-Voice, Streaming-Übersetzung und ein neues Whisper für Live-Transkription. Alles über eine WebSocket-Verbindung, alles kombinierbar.

GPT-Realtime-2: Reasoning während des Gesprächs

Bisherige Voice-Systeme arbeiten in Stufen. Audio rein, transkribieren, Text verarbeiten, Antwort generieren, Sprache synthetisieren, Audio raus. Jede Stufe kostet Zeit, und zwischen den Stufen geht Kontext verloren.

GPT-Realtime-2 macht das anders. Das Modell verarbeitet den Audio-Stream kontinuierlich und baut auf GPT-5-Reasoning auf. Es versteht Kontext, während gesprochen wird, nicht erst danach. Weniger Latenz, besseres Verständnis von Nuancen und Tonfall. Auf OpenAIs Big Bench Audio liegt Realtime-2 15,2 Prozent über dem Vorgänger, beim Instruction Following 13,8 Prozent.

Translate und Whisper: Übersetzung und Transkription in Echtzeit

Dazu kommen zwei spezialisierte Modelle. GPT-Realtime-Translate nimmt Audio in über 70 Sprachen entgegen und übersetzt es parallel in eine von 13 Zielsprachen. Kein Batch-Prozess, sondern ein Stream: Während jemand spricht, kommt die Übersetzung. Wer bisher für Echtzeit-Übersetzung separate Transkriptions-, Übersetzungs- und Synthesepipelines zusammenstecken musste, ersetzt diese Kette durch einen API-Aufruf.

GPT-Realtime-Whisper transkribiert Audio ebenfalls als Stream. Kein Warten auf fertige Audio-Chunks, sondern Text, der mitläuft während gesprochen wird. Für Live-Untertitel oder Meeting-Protokolle macht das einen spürbaren Unterschied in der wahrgenommenen Geschwindigkeit.

Preise

Realtime-2 rechnet nach Tokens: $32 pro Million Audio-Input-Tokens, $64 pro Million Output-Tokens. Cached Inputs kosten nur $0,40 pro Million, was bei festen System-Prompts oder wiederkehrenden Gesprächsrahmen ordentlich spart.

Translate und Whisper rechnen nach Minuten, was die Kalkulation einfacher macht. Translate kostet $0,034 pro Minute, Whisper $0,017. Zehn Minuten Echtzeit-Übersetzung: 34 Cent. Eine Stunde Transkription: rund ein Dollar. Nicht billig für High-Volume-Anwendungen, aber für die meisten Business-Szenarien überschaubar.

GA heißt: keine Ausreden mehr

Der eigentlich wichtige Punkt ist der Status. Die Realtime API ist jetzt GA. Wer bisher gezögert hat, weil "Beta" im Titel stand, hat diesen Grund nicht mehr. Alle drei Modelle laufen über dieselbe WebSocket-Verbindung und lassen sich kombinieren.

Für Teams in der Schweiz oder internationalen DACH-Projekten (Deutsch, Französisch, Italienisch, Englisch) ist Translate besonders interessant. Die offene Frage: Wie gut kommt die Echtzeit-Übersetzung mit deutschsprachigen Fachbegriffen und Dialektvarianten klar? Das steht in keinem Benchmark, und OpenAI hat dazu bisher nichts gesagt.

Quellen5