- OpenAI führt neue Sprach- und Bildfunktionen in ChatGPT ein
- Die neuen Funktionen bieten eine intuitivere Oberfläche, etwa indem Nutzer Sprachgespräche führen oder ChatGPT Bilder zeigen können
- Nutzer können diese Funktionen auf vielfältige Weise einsetzen, etwa indem sie ein Foto von einem Wahrzeichen machen und darüber in Echtzeit sprechen oder Bilder von Kühlschrank und Vorratskammer aufnehmen, um ein Abendessen auszuwählen
- Die Einführung für Plus- und Enterprise-Nutzer ist in den nächsten zwei Wochen geplant; die Sprachfunktion ist auf iOS und Android verfügbar, die Bildfunktion auf allen Plattformen
- Die neue Sprachfunktion wird von einem Text-to-Speech-Modell angetrieben, das aus Text und nur wenigen Sekunden Beispielstimme menschenähnliche Audios erzeugen kann
- Die Sprachfunktion wurde in Zusammenarbeit mit professionellen Synchronsprechern entwickelt und nutzt Whisper, OpenAIs Open-Source-Spracherkennungssystem, um gesprochene Wörter in Text umzuwandeln
- Die Bildverständnisfunktion wird von GPT-3.5 und GPT-4 angetrieben, die ihre Fähigkeiten zum sprachlichen Schlussfolgern auf eine Vielzahl von Bildern anwenden
- OpenAI rollt diese Funktionen schrittweise aus, um eine sichere und nützliche Nutzung zu gewährleisten und Nutzer auf künftig noch leistungsfähigere Systeme vorzubereiten
- Die neue Sprachtechnologie birgt potenzielle Risiken durch böswillige Akteure, die sich als Personen des öffentlichen Lebens ausgeben oder Betrug begehen könnten
- Auch visuelle Modelle bringen neue Herausforderungen mit sich, etwa Halluzinationen über Personen oder die problematische Abhängigkeit von der Bildinterpretation des Modells in Hochrisikobereichen
- OpenAI hat Maßnahmen ergriffen, um die Fähigkeit von ChatGPT zur Analyse und zu direkten Aussagen über Personen einzuschränken und so die Privatsphäre Einzelner zu respektieren
- OpenAI kommuniziert die Grenzen der Modelle transparent und betont insbesondere Einschränkungen in der Forschung sowie bei Sprachen mit nicht-lateinischen Schriftsystemen
- Plus- und Enterprise-Nutzer werden die Sprach- und Bildfunktionen in den nächsten zwei Wochen ausprobieren können; weitere Nutzergruppen, darunter Entwickler, sollen kurz darauf folgen
1 Kommentare
Hacker-News-Kommentare