ChatGPT kann jetzt sehen, hören und sprechen

kuroneko · 2023-09-26T10:09:40+09:00

Für ChatGPT wurden neue Sprach- und Bildfunktionen veröffentlicht. Es ist nun möglich, auf natürliche Weise per Sprache zu kommunizieren und Fragen mit angehängten Bildern zu stellen. Sprache wird über Whisper in Text umgewandelt, und Antworten werden auf Basis eines neuen TTS-Modells in die Stimme professioneller Sprecher umgewandelt. Das neue TTS-Modell kann mit nur wenigen Sekunden einer Stimmprobe die Stimme einer Person originalgetreu nachbilden. Das Modell wird auch für die Podcast-Übersetzungsfunktion von Spotify verwendet, die Podcasts mehrsprachig übersetzt und dabei die Stimme des Podcasters beibehält. Es können mehrere Bilder gleichzeitig angehängt werden, und nicht nur Text in Bildern, sondern auch Objekte werden detailliert erkannt. Man kann fragen, wie ein Werkzeug oder Gerät verwendet wird, oder sich anhand der Zutaten im Kühlschrank über Rezepte unterhalten. Auch das Analysieren von Diagrammen oder das Lösen von Mathematikaufgaben ist nun möglich. In der mobilen App kann man mit einem Zeichenwerkzeug den Fokus auf einen bestimmten Teil eines Bildes lenken. Aus Gründen der Sicherheit und des Datenschutzes sind Funktionen zur Analyse oder Beschreibung von Personen stark eingeschränkt. Die Funktionen sollen innerhalb der nächsten zwei Wochen zunächst für Plus- und Enterprise-Nutzer bereitgestellt werden. Sprache funktioniert nur unter iOS und Android, während das Anhängen von Bildern auf allen Plattformen verfügbar ist.

(openai.com)

22 Punkte von kuroneko 2023-09-26 | 4 Kommentare | Auf WhatsApp teilen

Für ChatGPT wurden neue Sprach- und Bildfunktionen veröffentlicht.
Es ist nun möglich, auf natürliche Weise per Sprache zu kommunizieren und Fragen mit angehängten Bildern zu stellen.
Sprache wird über Whisper in Text umgewandelt, und Antworten werden auf Basis eines neuen TTS-Modells in die Stimme professioneller Sprecher umgewandelt.
- Das neue TTS-Modell kann mit nur wenigen Sekunden einer Stimmprobe die Stimme einer Person originalgetreu nachbilden.
- Das Modell wird auch für die Podcast-Übersetzungsfunktion von Spotify verwendet, die Podcasts mehrsprachig übersetzt und dabei die Stimme des Podcasters beibehält.
Es können mehrere Bilder gleichzeitig angehängt werden, und nicht nur Text in Bildern, sondern auch Objekte werden detailliert erkannt.
- Man kann fragen, wie ein Werkzeug oder Gerät verwendet wird, oder sich anhand der Zutaten im Kühlschrank über Rezepte unterhalten.
- Auch das Analysieren von Diagrammen oder das Lösen von Mathematikaufgaben ist nun möglich.
- In der mobilen App kann man mit einem Zeichenwerkzeug den Fokus auf einen bestimmten Teil eines Bildes lenken.
- Aus Gründen der Sicherheit und des Datenschutzes sind Funktionen zur Analyse oder Beschreibung von Personen stark eingeschränkt.
Die Funktionen sollen innerhalb der nächsten zwei Wochen zunächst für Plus- und Enterprise-Nutzer bereitgestellt werden.
Sprache funktioniert nur unter iOS und Android, während das Anhängen von Bildern auf allen Plattformen verfügbar ist.

4 Kommentare

alstjr7375 2023-09-26

Skynet is coming...

ciber27 2023-09-26

Dann wird das OS aus dem Film Her wohl möglich.

kuroneko 2023-09-26

Als GPT-4 erstmals veröffentlicht wurde, war das kurz zu sehen, aber dass es Bilder nicht nur erkennen, sondern auch verstehen kann, ist wirklich erstaunlich.

In den Beispielen gibt es eine Stelle, an der gefragt wird, wie man einen Fahrradsattel einstellt.
Es wirkt dabei nicht wie bloße Bilderkennung, sondern eher so, als würde es die Anleitung lesen und das passende Werkzeug finden ...

Ich dachte erst, dafür bräuchte man wohl ein Plus-Abo, aber damit sieht die Sache schon etwas anders aus ... ich bin total neugierig.

kuroneko 2023-09-26

KI-Zusammenfassung des HN-Threads

modeless: Latenz ist derzeit das größte Problem bei Sprachassistenten, und er glaubt, dass natürlichere Gespräche möglich sind, wenn man ein Turn-Taking-Modell für Sprachdialoge entwickelt.
TheEzEzz: Er hat mit Llama und anderen Tools ein Sprachbefehlssystem mit geringer Latenz aufgebaut, das natürlicher Konversation nahekommt. Er denkt, dass durch fortlaufende Forschung in diesem Bereich neue Anwendungen entwickelt werden können.
cyrux004: Er stellt die Frage, ob lokal laufende Modelle dieselbe Leistung wie Cloud-basierte Modelle erreichen können, insbesondere bei komplexen Systemen.
TheEzEzz: Er stimmt zu, dass es von der Anwendung abhängt, und erwartet, dass sich ein hybrider Ansatz durchsetzen wird, bei dem lokale Modelle die erste Verarbeitung übernehmen und nur bei Bedarf große Cloud-Modelle anfragen.
simian1983: Er fragt, was passiert, wenn sinnlose oder böswillige Anfragen an das System gestellt werden.
TheEzEzz: Er antwortet, dass das System darauf trainiert ist, irrelevante Sätze zu ignorieren, damit Hintergrundgeräusche die Anfragen nicht stören.
furyofantares: Er betont, wie wichtig die Möglichkeit ist, die Antwort eines Sprachassistenten zu unterbrechen, so wie in einem Gespräch mit Menschen.
dotancohen: Er schlägt vor, dass Unterbrechungen ein Signal für Menschlichkeit sein könnten, das KI-Systeme noch nicht beherrschen.
jonplackett: Er ist der Ansicht, dass ein echter Sprachassistent auf menschlichem Niveau auch Intonation verstehen muss, die wichtige Informationen vermittelt, die im Text nicht enthalten sind.

ChatGPT kann jetzt sehen, hören und sprechen

Verwandte Beiträge

4 Kommentare