2 Punkte von GN⁺ 1 시간 전 | Noch keine Kommentare. | Auf WhatsApp teilen
  • OpenAI bringt drei neue Audiomodelle für die Realtime API heraus, die Reasoning-, Übersetzungs- und Transkriptionsfunktionen bieten und es Entwicklern ermöglichen, natürlichere und intelligentere Sprachanwendungen zu entwickeln
  • GPT-Realtime-2 ist das erste Sprachmodell mit GPT-5-ähnlichen Reasoning-Fähigkeiten und führt Gespräche natürlich fort, während es Tool-Aufrufe und Unterbrechungen verarbeitet
  • GPT-Realtime-Translate ist ein Live-Übersetzungsmodell, das mehr als 70 Eingabesprachen in 13 Ausgabesprachen in Echtzeit übersetzt
  • GPT-Realtime-Whisper ist ein Streaming-Sprachtranskriptionsmodell, das Gesprochenes während des Sprechens in Text umwandelt und sich für Untertitel, Besprechungsprotokolle und Kundensupport eignet
  • Ein Wendepunkt, an dem sich Sprache über simples Anfrage-Antwort-Verhalten hinaus zu einer Schnittstelle entwickelt, die Reasoning, Übersetzung, Transkription und Tool-Ausführung gleichzeitig übernimmt

Überblick über die 3 neuen Echtzeit-Audiomodelle

  • Drei Modelle wurden in die API aufgenommen, damit Entwickler Sprach-Erlebnisse entwickeln können, die natürlicher sind, intelligenter reagieren und in Echtzeit Aktionen ausführen
  • GPT-Realtime-2: das erste Sprachmodell mit GPT-5-ähnlichem Reasoning, das schwierige Anfragen bearbeitet und Gespräche natürlich steuert
  • GPT-Realtime-Translate: führt Sprachübersetzung in Echtzeit von mehr als 70 Eingabesprachen in 13 Ausgabesprachen im Tempo des Sprechers aus
  • GPT-Realtime-Whisper: bietet Live-Streaming-Sprach-zu-Text-Transkription, während der Sprecher spricht

Der Trend: Sprache wird zur Software-Schnittstelle

  • Sprache entwickelt sich zu einer der natürlichsten Arten, Software zu nutzen: Hilfe beim Fahren anfordern, Reisepläne am Flughafen ändern, Unterstützung in der bevorzugten Sprache erhalten oder Aufgaben ohne Tippen erledigen
  • Nützliche Sprachprodukte erfordern mehr als schnelle Turn-Taking-Zyklen oder eine natürliche Stimme: Sie müssen Bedeutung erfassen, Kontext nachverfolgen, sich bei geänderten Anfragen erholen, während des Gesprächs Tools nutzen und im passenden Ton antworten
  • Die diesmal veröffentlichten Modelle verwandeln Echtzeit-Audio von einfachem Anfrage-Antwort-Verhalten in Sprachschnittstellen, die zuhören, schlussfolgern, übersetzen, transkribieren und handeln

Drei aufkommende Muster von Voice AI

  • Voice-to-Action: Der Nutzer spricht Anforderungen aus, das System schlussfolgert und nutzt Tools, um die Aufgabe zu erledigen
    • Beispiel Zillow: Ein Assistent im Aufbau, der Anfragen wie „Finde Häuser in meinem BuyAbility-Bereich, meide stark befahrene Straßen und buche eine Besichtigung für Samstag“ hört, interpretiert und ausführt
  • Systems-to-Voice: Software wandelt Kontext in Echtzeit in sprachliche Anleitung um
    • Beispiel Reise-App: bietet proaktive Sprachhinweise wie „Der ankommende Flug hat Verspätung, aber der Anschluss ist noch erreichbar. Ich habe das neue Gate gefunden, leite dich auf dem kürzesten Weg durch das Terminal, und dein Gepäck wird planmäßig weitergeleitet.“
  • Voice-to-Voice: KI hält Gespräche in Echtzeit über Sprachgrenzen, Aufgaben und sich verändernde Kontexte hinweg aufrecht
    • Beispiel Deutsche Telekom: entwickelt ein Sprachsupport-Erlebnis, bei dem das Modell in Echtzeit übersetzt, wenn Kunden in ihrer bevorzugten Sprache sprechen
  • Diese Muster lassen sich auch kombinieren, und Priceline arbeitet an einer Zukunft, in der die gesamte Reise per Sprache verwaltet wird – von Flug- und Hotelsuche über Umbuchungen und TSA-Wartezeit-Updates bis hin zur Übersetzung lokaler Gespräche

GPT-Realtime-2: Echtzeit-Sprachmodell für Reasoning und Handeln

  • Für Echtzeit-Sprachinteraktionen optimiert; führt gleichzeitig Reasoning, Tool-Aufrufe, Korrektur- und Unterbrechungsverarbeitung sowie situationsgerechte Antworten aus
  • Preambles: kurze Formulierungen wie „Ich prüfe das kurz“ oder „Einen Moment bitte“, um dem Nutzer mitzuteilen, dass der Agent die Anfrage bearbeitet
  • Parallele Tool-Aufrufe und Tool-Transparenz: Mehrere Tools können gleichzeitig aufgerufen werden, während Formulierungen wie „Ich prüfe den Kalender“ oder „Ich suche gerade“ die Reaktionsfähigkeit aufrechterhalten
  • Verbessertes Recovery-Verhalten: Statt still zu scheitern oder das Gespräch abzubrechen, erfolgt eine natürliche Erholung mit Formulierungen wie „Das kann ich im Moment schwer verarbeiten“
  • Erweitertes Kontextfenster: von 32K auf 128K vergrößert, um längere Sitzungen und komplexere Workflows zu unterstützen
  • Verbessertes Domänenverständnis: behält Fachbegriffe, Eigennamen, medizinische Terminologie und andere für Produktionsumgebungen wichtige Vokabeln besser bei
  • Steuerbarer Ton und Vortrag: etwa ruhig bei Problemlösung, empathisch bei verärgerten Nutzern oder freundlich-positiv bei Erfolgsmeldungen
  • Anpassbarer Reasoning-Aufwand: fünf Stufen – minimal, low, medium, high, xhigh. Standard ist low, um bei einfachen Interaktionen geringe Latenz und bei komplexen Anfragen tieferes Reasoning auszubalancieren

Leistungs-Benchmarks von GPT-Realtime-2

  • GPT-Realtime-2 (high) erzielte bei Big Bench Audio im Bereich Audio Intelligence einen 15,2 % höheren Wert als GPT-Realtime-1.5
  • GPT-Realtime-2 (xhigh) erzielte bei Audio MultiChallenge beim Befolgen von Anweisungen einen 13,8 % höheren Wert als GPT-Realtime-1.5 und verbesserte damit Reasoning, Kontextmanagement und Steuerbarkeit
  • Zitat von Josh Weisberg, SVP bei Zillow: Nach Prompt-Optimierung auf den schwierigsten adversarialen Benchmarks stieg die Anruf-Erfolgsrate um 26 Prozentpunkte (95 % vs. 69 %); zudem sei die Einhaltung der Fair-Housing-Vorgaben robuster, und die Kombination aus Agentenfähigkeit und Stärke der Guardrails passe gut für Zillows Sprachsysteme in Produktion

GPT-Realtime-Translate: Mehrsprachige Sprachübersetzung in Echtzeit

  • Ermöglicht den Aufbau mehrsprachiger Sprach-Erlebnisse, bei denen jede teilnehmende Person in ihrer bevorzugten Sprache spricht, die übersetzte Unterhaltung in Echtzeit hört und Live-Transkriptionen lesen kann
  • Unterstützt mehr als 70 Eingabesprachen und 13 Ausgabesprachen und eignet sich für Kundensupport, grenzüberschreitenden Vertrieb, Bildung, Events, Medien und globale Creator-Plattformen
  • Muss die Bedeutung bewahren und gleichzeitig dem Tempo des Sprechers folgen; außerdem natürliche Äußerungen, Kontextwechsel, regionale Aussprache und domänenspezifische Sprache verarbeiten
  • Wird von der Deutschen Telekom für mehrsprachige Sprachinteraktionen getestet; niedrige Latenz und verbesserte Flüssigkeit machen sprachübergreifende Gespräche natürlicher
  • Beispiel Vimeo: GPT-Realtime-Translate liefert Echtzeit-Übersetzung, während Produktschulungsvideos abgespielt werden, sodass globale Kunden Updates in ihrer bevorzugten Sprache hören können, ohne separate lokalisierte Versionen produzieren zu müssen
  • Zitat von Prateek Sachan, CTO von BolnaAI: In Auswertungen für Hindi, Tamil und Telugu lag die Word Error Rate (WER) 12,5 % niedriger als bei anderen Modellen; zudem wurden Fallback-Raten gesenkt, hohe Task-Completion-Raten erzielt und Latenzen erreicht, die natürliche Gespräche unterstützen

GPT-Realtime-Whisper: Streaming-Transkription mit niedriger Latenz

  • Neues Streaming-Transkriptionsmodell für Sprach-zu-Text mit niedriger Latenz, das Audio während des Sprechens transkribiert
  • Eignet sich für Live-Untertitel, automatisch entstehende Besprechungsnotizen, Sprachagenten mit Bedarf an kontinuierlichem Nutzerverständnis sowie schnelle Folge-Workflows bei häufigen Sprachinteraktionen in Kundensupport, Gesundheitswesen, Vertrieb und Recruiting
  • Macht Business-Workflows möglich, in denen Sprachdaten sofort genutzt werden – etwa für Untertitel in Besprechungen, Klassenzimmern, Übertragungen und Events oder für Notizen und Zusammenfassungen während laufender Gespräche

Sicherheit und Richtlinien

  • Auf die Realtime API werden mehrschichtige Sicherheitsvorkehrungen und Gegenmaßnahmen angewendet, um Missbrauch zu verhindern
  • Aktive Klassifikatoren für Sitzungen sind im Einsatz und können Gespräche unterbrechen, wenn Verstöße gegen Richtlinien für schädliche Inhalte erkannt werden
  • Entwickler können mit dem Agents SDK eigene Sicherheits-Guardrails hinzufügen
  • Gemäß den Nutzungsrichtlinien ist die Wiederverwendung oder Verbreitung von Ausgaben für schädliche Zwecke wie Spam oder Täuschung verboten
  • Endnutzer müssen klar darauf hingewiesen werden, dass sie mit einer KI interagieren, außer wenn dies aus dem Kontext offensichtlich ist
  • EU-Datenresidenz wird vollständig unterstützt, außerdem gelten Enterprise-Datenschutzverpflichtungen

Preise und Verfügbarkeit

  • GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper sind alle in der Realtime API verfügbar
  • GPT-Realtime-2: $32 pro 1 Million Audio-Eingabetokens ($0.40 für zwischengespeicherte Eingabetokens), $64 pro 1 Million Audio-Ausgabetokens
  • GPT-Realtime-Translate: $0.034 pro Minute
  • GPT-Realtime-Whisper: $0.017 pro Minute
  • Die neuen Echtzeit-Sprachmodelle können im Playground getestet werden; über Codex lässt sich GPT-Realtime-2 in bestehende Apps integrieren oder für neue Projekte nutzen

Noch keine Kommentare.

Noch keine Kommentare.