OpenAI stellt die GPT-Realtime-2-Serie mit GPT-5-ähnlichen Reasoning-Fähigkeiten vor

(openai.com)

2 Punkte von GN⁺ 1 시간 전 | Noch keine Kommentare. | Auf WhatsApp teilen

OpenAI bringt drei neue Audiomodelle für die Realtime API heraus, die Reasoning-, Übersetzungs- und Transkriptionsfunktionen bieten und es Entwicklern ermöglichen, natürlichere und intelligentere Sprachanwendungen zu entwickeln
GPT-Realtime-2 ist das erste Sprachmodell mit GPT-5-ähnlichen Reasoning-Fähigkeiten und führt Gespräche natürlich fort, während es Tool-Aufrufe und Unterbrechungen verarbeitet
GPT-Realtime-Translate ist ein Live-Übersetzungsmodell, das mehr als 70 Eingabesprachen in 13 Ausgabesprachen in Echtzeit übersetzt
GPT-Realtime-Whisper ist ein Streaming-Sprachtranskriptionsmodell, das Gesprochenes während des Sprechens in Text umwandelt und sich für Untertitel, Besprechungsprotokolle und Kundensupport eignet
Ein Wendepunkt, an dem sich Sprache über simples Anfrage-Antwort-Verhalten hinaus zu einer Schnittstelle entwickelt, die Reasoning, Übersetzung, Transkription und Tool-Ausführung gleichzeitig übernimmt

Überblick über die 3 neuen Echtzeit-Audiomodelle

Drei Modelle wurden in die API aufgenommen, damit Entwickler Sprach-Erlebnisse entwickeln können, die natürlicher sind, intelligenter reagieren und in Echtzeit Aktionen ausführen
GPT-Realtime-2: das erste Sprachmodell mit GPT-5-ähnlichem Reasoning, das schwierige Anfragen bearbeitet und Gespräche natürlich steuert
GPT-Realtime-Translate: führt Sprachübersetzung in Echtzeit von mehr als 70 Eingabesprachen in 13 Ausgabesprachen im Tempo des Sprechers aus
GPT-Realtime-Whisper: bietet Live-Streaming-Sprach-zu-Text-Transkription, während der Sprecher spricht

Der Trend: Sprache wird zur Software-Schnittstelle

Sprache entwickelt sich zu einer der natürlichsten Arten, Software zu nutzen: Hilfe beim Fahren anfordern, Reisepläne am Flughafen ändern, Unterstützung in der bevorzugten Sprache erhalten oder Aufgaben ohne Tippen erledigen
Nützliche Sprachprodukte erfordern mehr als schnelle Turn-Taking-Zyklen oder eine natürliche Stimme: Sie müssen Bedeutung erfassen, Kontext nachverfolgen, sich bei geänderten Anfragen erholen, während des Gesprächs Tools nutzen und im passenden Ton antworten
Die diesmal veröffentlichten Modelle verwandeln Echtzeit-Audio von einfachem Anfrage-Antwort-Verhalten in Sprachschnittstellen, die zuhören, schlussfolgern, übersetzen, transkribieren und handeln

Drei aufkommende Muster von Voice AI

Voice-to-Action: Der Nutzer spricht Anforderungen aus, das System schlussfolgert und nutzt Tools, um die Aufgabe zu erledigen
- Beispiel Zillow: Ein Assistent im Aufbau, der Anfragen wie „Finde Häuser in meinem BuyAbility-Bereich, meide stark befahrene Straßen und buche eine Besichtigung für Samstag“ hört, interpretiert und ausführt
Systems-to-Voice: Software wandelt Kontext in Echtzeit in sprachliche Anleitung um
- Beispiel Reise-App: bietet proaktive Sprachhinweise wie „Der ankommende Flug hat Verspätung, aber der Anschluss ist noch erreichbar. Ich habe das neue Gate gefunden, leite dich auf dem kürzesten Weg durch das Terminal, und dein Gepäck wird planmäßig weitergeleitet.“
Voice-to-Voice: KI hält Gespräche in Echtzeit über Sprachgrenzen, Aufgaben und sich verändernde Kontexte hinweg aufrecht
- Beispiel Deutsche Telekom: entwickelt ein Sprachsupport-Erlebnis, bei dem das Modell in Echtzeit übersetzt, wenn Kunden in ihrer bevorzugten Sprache sprechen
Diese Muster lassen sich auch kombinieren, und Priceline arbeitet an einer Zukunft, in der die gesamte Reise per Sprache verwaltet wird – von Flug- und Hotelsuche über Umbuchungen und TSA-Wartezeit-Updates bis hin zur Übersetzung lokaler Gespräche

GPT-Realtime-2: Echtzeit-Sprachmodell für Reasoning und Handeln

Für Echtzeit-Sprachinteraktionen optimiert; führt gleichzeitig Reasoning, Tool-Aufrufe, Korrektur- und Unterbrechungsverarbeitung sowie situationsgerechte Antworten aus
Preambles: kurze Formulierungen wie „Ich prüfe das kurz“ oder „Einen Moment bitte“, um dem Nutzer mitzuteilen, dass der Agent die Anfrage bearbeitet
Parallele Tool-Aufrufe und Tool-Transparenz: Mehrere Tools können gleichzeitig aufgerufen werden, während Formulierungen wie „Ich prüfe den Kalender“ oder „Ich suche gerade“ die Reaktionsfähigkeit aufrechterhalten
Verbessertes Recovery-Verhalten: Statt still zu scheitern oder das Gespräch abzubrechen, erfolgt eine natürliche Erholung mit Formulierungen wie „Das kann ich im Moment schwer verarbeiten“
Erweitertes Kontextfenster: von 32K auf 128K vergrößert, um längere Sitzungen und komplexere Workflows zu unterstützen
Verbessertes Domänenverständnis: behält Fachbegriffe, Eigennamen, medizinische Terminologie und andere für Produktionsumgebungen wichtige Vokabeln besser bei
Steuerbarer Ton und Vortrag: etwa ruhig bei Problemlösung, empathisch bei verärgerten Nutzern oder freundlich-positiv bei Erfolgsmeldungen
Anpassbarer Reasoning-Aufwand: fünf Stufen – minimal, low, medium, high, xhigh. Standard ist low, um bei einfachen Interaktionen geringe Latenz und bei komplexen Anfragen tieferes Reasoning auszubalancieren

Leistungs-Benchmarks von GPT-Realtime-2

GPT-Realtime-2 (high) erzielte bei Big Bench Audio im Bereich Audio Intelligence einen 15,2 % höheren Wert als GPT-Realtime-1.5
GPT-Realtime-2 (xhigh) erzielte bei Audio MultiChallenge beim Befolgen von Anweisungen einen 13,8 % höheren Wert als GPT-Realtime-1.5 und verbesserte damit Reasoning, Kontextmanagement und Steuerbarkeit
Zitat von Josh Weisberg, SVP bei Zillow: Nach Prompt-Optimierung auf den schwierigsten adversarialen Benchmarks stieg die Anruf-Erfolgsrate um 26 Prozentpunkte (95 % vs. 69 %); zudem sei die Einhaltung der Fair-Housing-Vorgaben robuster, und die Kombination aus Agentenfähigkeit und Stärke der Guardrails passe gut für Zillows Sprachsysteme in Produktion

GPT-Realtime-Translate: Mehrsprachige Sprachübersetzung in Echtzeit

Ermöglicht den Aufbau mehrsprachiger Sprach-Erlebnisse, bei denen jede teilnehmende Person in ihrer bevorzugten Sprache spricht, die übersetzte Unterhaltung in Echtzeit hört und Live-Transkriptionen lesen kann
Unterstützt mehr als 70 Eingabesprachen und 13 Ausgabesprachen und eignet sich für Kundensupport, grenzüberschreitenden Vertrieb, Bildung, Events, Medien und globale Creator-Plattformen
Muss die Bedeutung bewahren und gleichzeitig dem Tempo des Sprechers folgen; außerdem natürliche Äußerungen, Kontextwechsel, regionale Aussprache und domänenspezifische Sprache verarbeiten
Wird von der Deutschen Telekom für mehrsprachige Sprachinteraktionen getestet; niedrige Latenz und verbesserte Flüssigkeit machen sprachübergreifende Gespräche natürlicher
Beispiel Vimeo: GPT-Realtime-Translate liefert Echtzeit-Übersetzung, während Produktschulungsvideos abgespielt werden, sodass globale Kunden Updates in ihrer bevorzugten Sprache hören können, ohne separate lokalisierte Versionen produzieren zu müssen
Zitat von Prateek Sachan, CTO von BolnaAI: In Auswertungen für Hindi, Tamil und Telugu lag die Word Error Rate (WER) 12,5 % niedriger als bei anderen Modellen; zudem wurden Fallback-Raten gesenkt, hohe Task-Completion-Raten erzielt und Latenzen erreicht, die natürliche Gespräche unterstützen

GPT-Realtime-Whisper: Streaming-Transkription mit niedriger Latenz

Neues Streaming-Transkriptionsmodell für Sprach-zu-Text mit niedriger Latenz, das Audio während des Sprechens transkribiert
Eignet sich für Live-Untertitel, automatisch entstehende Besprechungsnotizen, Sprachagenten mit Bedarf an kontinuierlichem Nutzerverständnis sowie schnelle Folge-Workflows bei häufigen Sprachinteraktionen in Kundensupport, Gesundheitswesen, Vertrieb und Recruiting
Macht Business-Workflows möglich, in denen Sprachdaten sofort genutzt werden – etwa für Untertitel in Besprechungen, Klassenzimmern, Übertragungen und Events oder für Notizen und Zusammenfassungen während laufender Gespräche

Sicherheit und Richtlinien

Auf die Realtime API werden mehrschichtige Sicherheitsvorkehrungen und Gegenmaßnahmen angewendet, um Missbrauch zu verhindern
Aktive Klassifikatoren für Sitzungen sind im Einsatz und können Gespräche unterbrechen, wenn Verstöße gegen Richtlinien für schädliche Inhalte erkannt werden
Entwickler können mit dem Agents SDK eigene Sicherheits-Guardrails hinzufügen
Gemäß den Nutzungsrichtlinien ist die Wiederverwendung oder Verbreitung von Ausgaben für schädliche Zwecke wie Spam oder Täuschung verboten
Endnutzer müssen klar darauf hingewiesen werden, dass sie mit einer KI interagieren, außer wenn dies aus dem Kontext offensichtlich ist
EU-Datenresidenz wird vollständig unterstützt, außerdem gelten Enterprise-Datenschutzverpflichtungen

Preise und Verfügbarkeit

GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper sind alle in der Realtime API verfügbar
GPT-Realtime-2: $32 pro 1 Million Audio-Eingabetokens ($0.40 für zwischengespeicherte Eingabetokens), $64 pro 1 Million Audio-Ausgabetokens
GPT-Realtime-Translate: $0.034 pro Minute
GPT-Realtime-Whisper: $0.017 pro Minute
Die neuen Echtzeit-Sprachmodelle können im Playground getestet werden; über Codex lässt sich GPT-Realtime-2 in bestehende Apps integrieren oder für neue Projekte nutzen

OpenAI stellt die GPT-Realtime-2-Serie mit GPT-5-ähnlichen Reasoning-Fähigkeiten vor

Überblick über die 3 neuen Echtzeit-Audiomodelle

Der Trend: Sprache wird zur Software-Schnittstelle

Drei aufkommende Muster von Voice AI

GPT-Realtime-2: Echtzeit-Sprachmodell für Reasoning und Handeln

Leistungs-Benchmarks von GPT-Realtime-2

GPT-Realtime-Translate: Mehrsprachige Sprachübersetzung in Echtzeit

GPT-Realtime-Whisper: Streaming-Transkription mit niedriger Latenz

Sicherheit und Richtlinien

Preise und Verfügbarkeit

Verwandte Beiträge

Noch keine Kommentare.