- Für ChatGPT wurden neue Sprach- und Bildfunktionen veröffentlicht.
- Es ist nun möglich, auf natürliche Weise per Sprache zu kommunizieren und Fragen mit angehängten Bildern zu stellen.
- Sprache wird über Whisper in Text umgewandelt, und Antworten werden auf Basis eines neuen TTS-Modells in die Stimme professioneller Sprecher umgewandelt.
- Das neue TTS-Modell kann mit nur wenigen Sekunden einer Stimmprobe die Stimme einer Person originalgetreu nachbilden.
- Das Modell wird auch für die Podcast-Übersetzungsfunktion von Spotify verwendet, die Podcasts mehrsprachig übersetzt und dabei die Stimme des Podcasters beibehält.
- Es können mehrere Bilder gleichzeitig angehängt werden, und nicht nur Text in Bildern, sondern auch Objekte werden detailliert erkannt.
- Man kann fragen, wie ein Werkzeug oder Gerät verwendet wird, oder sich anhand der Zutaten im Kühlschrank über Rezepte unterhalten.
- Auch das Analysieren von Diagrammen oder das Lösen von Mathematikaufgaben ist nun möglich.
- In der mobilen App kann man mit einem Zeichenwerkzeug den Fokus auf einen bestimmten Teil eines Bildes lenken.
- Aus Gründen der Sicherheit und des Datenschutzes sind Funktionen zur Analyse oder Beschreibung von Personen stark eingeschränkt.
- Die Funktionen sollen innerhalb der nächsten zwei Wochen zunächst für Plus- und Enterprise-Nutzer bereitgestellt werden.
- Sprache funktioniert nur unter iOS und Android, während das Anhängen von Bildern auf allen Plattformen verfügbar ist.
4 Kommentare
Skynet is coming...
Dann wird das OS aus dem Film Her wohl möglich.
Als GPT-4 erstmals veröffentlicht wurde, war das kurz zu sehen, aber dass es Bilder nicht nur erkennen, sondern auch verstehen kann, ist wirklich erstaunlich.
In den Beispielen gibt es eine Stelle, an der gefragt wird, wie man einen Fahrradsattel einstellt.
Es wirkt dabei nicht wie bloße Bilderkennung, sondern eher so, als würde es die Anleitung lesen und das passende Werkzeug finden ...
Ich dachte erst, dafür bräuchte man wohl ein Plus-Abo, aber damit sieht die Sache schon etwas anders aus ... ich bin total neugierig.
KI-Zusammenfassung des HN-Threads