1 Punkte von GN⁺ 2023-09-26 | 1 Kommentare | Auf WhatsApp teilen
  • OpenAI führt neue Sprach- und Bildfunktionen in ChatGPT ein
  • Die neuen Funktionen bieten eine intuitivere Oberfläche, etwa indem Nutzer Sprachgespräche führen oder ChatGPT Bilder zeigen können
  • Nutzer können diese Funktionen auf vielfältige Weise einsetzen, etwa indem sie ein Foto von einem Wahrzeichen machen und darüber in Echtzeit sprechen oder Bilder von Kühlschrank und Vorratskammer aufnehmen, um ein Abendessen auszuwählen
  • Die Einführung für Plus- und Enterprise-Nutzer ist in den nächsten zwei Wochen geplant; die Sprachfunktion ist auf iOS und Android verfügbar, die Bildfunktion auf allen Plattformen
  • Die neue Sprachfunktion wird von einem Text-to-Speech-Modell angetrieben, das aus Text und nur wenigen Sekunden Beispielstimme menschenähnliche Audios erzeugen kann
  • Die Sprachfunktion wurde in Zusammenarbeit mit professionellen Synchronsprechern entwickelt und nutzt Whisper, OpenAIs Open-Source-Spracherkennungssystem, um gesprochene Wörter in Text umzuwandeln
  • Die Bildverständnisfunktion wird von GPT-3.5 und GPT-4 angetrieben, die ihre Fähigkeiten zum sprachlichen Schlussfolgern auf eine Vielzahl von Bildern anwenden
  • OpenAI rollt diese Funktionen schrittweise aus, um eine sichere und nützliche Nutzung zu gewährleisten und Nutzer auf künftig noch leistungsfähigere Systeme vorzubereiten
  • Die neue Sprachtechnologie birgt potenzielle Risiken durch böswillige Akteure, die sich als Personen des öffentlichen Lebens ausgeben oder Betrug begehen könnten
  • Auch visuelle Modelle bringen neue Herausforderungen mit sich, etwa Halluzinationen über Personen oder die problematische Abhängigkeit von der Bildinterpretation des Modells in Hochrisikobereichen
  • OpenAI hat Maßnahmen ergriffen, um die Fähigkeit von ChatGPT zur Analyse und zu direkten Aussagen über Personen einzuschränken und so die Privatsphäre Einzelner zu respektieren
  • OpenAI kommuniziert die Grenzen der Modelle transparent und betont insbesondere Einschränkungen in der Forschung sowie bei Sprachen mit nicht-lateinischen Schriftsystemen
  • Plus- und Enterprise-Nutzer werden die Sprach- und Bildfunktionen in den nächsten zwei Wochen ausprobieren können; weitere Nutzergruppen, darunter Entwickler, sollen kurz darauf folgen

1 Kommentare

 
GN⁺ 2023-09-26
Hacker-News-Kommentare
  • Die neuen Sprach- und Bildfunktionen von ChatGPT haben Potenzial, aber die Latenz zwischen Anfrage und Antwort bereitet Sorgen.
  • Diese Technologie könnte für die Robotikplanung eingesetzt werden, was dazu führen könnte, dass Allzweckroboter einfache Arbeiten ausführen.
  • Die Weiterentwicklung von ChatGPT könnte viele Startups durcheinanderbringen, die versuchten, multimodale Funktionen aufzubauen.
  • Es gibt Enttäuschung darüber, dass die Web-Browsing-Funktion ohne angemessene Ankündigung entfernt wurde.
  • Die neuen Funktionen könnten dafür genutzt werden, robuste KI-basierte Bilderkennung in App-Benutzeroberflächen einzusetzen und ausführbaren Code für die Testautomatisierung zu erzeugen.
  • Die intuitivste Benutzererfahrung scheint Text-Chat zu sein, aber auch die Interaktion mit Bildern ist interessant.
  • Die Ergänzung von Bildunterstützung könnte von Schülern missbraucht werden, um Antworten auf Hausaufgaben zu erhalten.
  • Es gibt Kritik daran, dass die Kommunikation von OpenAI zu den neuen Funktionen und ihrem Rollout unzureichend ist.
  • Die neuen Funktionen könnten die Komplexität und Latenz beim Integrieren verschiedener KI-Dienste in Hobbyprojekten verringern.
  • Es gibt Kritik daran, dass ChatGPT im Modus einer „coolen Demo“ verharrt und sein Potenzial nicht vollständig nutzt, etwa beim Erklären von Programmen per Sprache.