Sprachgespräche und Bildeingabe für ChatGPT eingeführt

(openai.com)

1 Punkte von GN⁺ 2023-09-26 | 1 Kommentare | Auf WhatsApp teilen

OpenAI führt Sprachgespräche und Bildeingabe schrittweise in ChatGPT ein, sodass Nutzer über die Texteingabe hinaus per Sprache sprechen und mit Fotos Fragen stellen können
Die Sprachfunktion ist in der mobilen App nach Opt-in nutzbar; dabei kann eine von fünf Stimmen gewählt werden, und Whisper wandelt die Sprache des Nutzers in Text um
Die Bildfunktion verarbeitet Fotos, Screenshots und Dokumente mit Text und Bildern; in der mobilen App kann mit einem Zeichenwerkzeug ein bestimmter Bereich markiert werden
Zuerst wird die Funktion über zwei Wochen an Plus- und Enterprise-Nutzer ausgerollt: Sprache auf iOS und Android, Bilder auf allen Plattformen
Wegen Risiken wie realistischer Sprachsynthese, der Interpretation von Menschen in Bildern und der Abhängigkeit in Hochrisikobereichen setzt OpenAI auf eine begrenzte Einführung zusammen mit Schutzmaßnahmen

Neue Eingabeformen für ChatGPT: sprechen, zeigen und fragen

ChatGPT erhält Funktionen, mit denen Nutzer per Sprache sprechen oder Bilder zeigen und dazu Fragen stellen können
Die neuen Funktionen sollen die Nutzung von ChatGPT intuitiver machen, statt sich nur auf Tastatureingaben zu stützen
Beispiele für die Nutzung sind:
- Auf Reisen ein Foto eines Wahrzeichens machen und in einem Live-Gespräch nach interessanten Details fragen
- Fotos vom Kühlschrank und der Vorratskammer zeigen und nach einem Abendessen sowie einem Schritt-für-Schritt-Rezept fragen
- Ein Matheproblem eines Kindes fotografieren, einen Aufgabensatz einkreisen und um Hinweise bitten

Nutzer und Plattformen mit frühem Zugang

Plus- und Enterprise-Nutzer können die Sprach- und Bildfunktionen in den kommenden zwei Wochen verwenden
Die Sprachfunktion ist auf iOS und Android verfügbar und muss in den Einstellungen per Opt-in aktiviert werden
Die Bildfunktion ist auf allen Plattformen verfügbar
Später soll der Zugang auf weitere Nutzergruppen einschließlich Entwicklern ausgeweitet werden

So funktioniert die Sprachfunktion

Nutzer können mit ChatGPT wechselseitige Sprachgespräche führen
- Gespräche unterwegs
- Das Bitten um eine Gutenachtgeschichte für die Familie
- Anwendungsfälle wie das Schlichten von Diskussionen am Esstisch
Um Sprache in der mobilen App zu starten, muss unter Settings → New Features die Sprachkonversation aktiviert werden
Danach tippt man auf die Kopfhörer-Schaltfläche oben rechts auf dem Startbildschirm und wählt eine bevorzugte Stimme aus fünf Stimmen
Die neue Sprachfunktion nutzt ein Text-to-Speech-Modell, das mit Text und nur wenigen Sekunden Beispielstimme menschenähnliches Audio erzeugen kann
Jede Stimme wurde von OpenAI in Zusammenarbeit mit professionellen Synchronsprechern erstellt
Das Gesprochene des Nutzers wird vom Open-Source-Spracherkennungssystem Whisper von OpenAI in Text umgewandelt

So funktioniert die Bildfunktion

Nutzer können ChatGPT ein oder mehrere Bilder zeigen und das Gespräch fortsetzen
Die Bildeingabe kann für Aufgaben wie diese verwendet werden:
- Prüfen, warum ein Grill nicht anspringt
- Einen Essensplan anhand des Kühlschrankinhalts erstellen
- Komplexe Diagramme mit Geschäftsdaten analysieren
Um die Aufmerksamkeit auf einen bestimmten Bereich zu lenken, kann in der mobilen App das Zeichenwerkzeug verwendet werden
Um ein Bild hinzuzufügen, drückt man die Foto-Schaltfläche, um ein Bild aufzunehmen oder auszuwählen
- Auf iOS und Android muss zuerst die Plus-Schaltfläche gedrückt werden
- Mehrere Bilder können zusammen besprochen oder mit dem Zeichenwerkzeug markiert werden, um dem assistant zu zeigen, worauf er achten soll
Für das Bildverständnis kommen multimodales GPT‑3.5 und GPT‑4 zum Einsatz
Diese Modelle wenden sprachliches Schlussfolgern auf verschiedene Arten von Bildern an, darunter Fotos, Screenshots und Dokumente mit Text und Bildern

Schrittweise Einführung und Schutzmaßnahmen

OpenAI verfolgt einen Ansatz, Werkzeuge schrittweise zu veröffentlichen, um sie gleichzeitig zu verbessern und Risiken zu mindern
Bei fortgeschrittenen Modellen mit Sprache und Vision wird diese Strategie wegen des höheren Missbrauchspotenzials noch wichtiger
Risiken und Einschränkungen bei Sprache
- Die neue Sprachtechnologie kann aus nur wenigen Sekunden echter Stimme realistische synthetische Stimmen erzeugen
- Sie ermöglicht kreative Anwendungsfälle und auf Barrierefreiheit ausgerichtete Anwendungen, bringt aber auch Risiken wie das Vortäuschen öffentlicher Personen oder Betrug mit sich
- OpenAI setzt diese Technologie für den spezifischen Anwendungsfall Voice Chat ein
- Voice Chat verwendet Stimmen von Sprechern, mit denen OpenAI direkt zusammengearbeitet hat
- Spotify nutzt diese Technologie im Pilotprojekt Voice Translation
- Damit werden Podcasts in die Stimme des Podcasters in zusätzliche Sprachen übersetzt, um die Reichweite des Storytellings zu vergrößern
- Zugehöriger Link: Voice Translation
Risiken und Einschränkungen bei der Bildeingabe
- Vision-Modelle bringen neue Herausforderungen mit sich, etwa Halluzinationen über Personen oder die problematische Abhängigkeit von Bildinterpretationen in Hochrisikobereichen
- OpenAI testete die Modelle vor einer breiteren Einführung mit Red Teams und verschiedenen Alpha-Testern
- Zu den Testbereichen gehörten Risikofelder wie Extremismus und wissenschaftliche Fachkompetenz
- Die Zusammenarbeit mit Be My Eyes dient dazu, Nutzungsweisen und Grenzen von Bildern besser zu verstehen
- Be My Eyes ist eine kostenlose mobile App für blinde und sehbehinderte Menschen
- Nutzer fanden es nützlich, allgemeine Gespräche über Bilder mit Menschen zu führen, etwa in Situationen, in denen im Hintergrund einer TV-Szene Personen zu sehen sind
- Da ChatGPT nicht immer korrekt ist und auch die Privatsphäre von Personen respektiert werden muss, hat OpenAI technische Maßnahmen eingeführt, die die Fähigkeit von ChatGPT, Menschen zu analysieren und direkte Aussagen über sie zu treffen, stark einschränken
- Reale Nutzung und Feedback werden verwendet, um Schutzmaßnahmen zu verbessern und zugleich den Nutzen des Werkzeugs zu erhalten

Modellgrenzen und Hinweise zur Nutzung

Nutzer könnten sich bei Fachthemen wie Forschung auf ChatGPT verlassen; deshalb sollten die Grenzen des Modells verstanden und Hochrisiko-Nutzung ohne Verifizierung vermieden werden
Das Modell ist stark bei der Transkription englischer Texte, zeigt aber bei einigen anderen Sprachen, besonders bei nicht-lateinischen Schriftsystemen, geringere Leistung
OpenAI empfiehlt nicht, ChatGPT dafür von nicht englischsprachigen Nutzern verwenden zu lassen
Mehr zum Sicherheitsansatz für Bildeingaben und zur Arbeit mit Be My Eyes steht in der system card for image input

1 Kommentare

GN⁺ 2023-09-26

Meinungen auf Hacker News

Sprachinterfaces haben enormes Potenzial, aber diese Demo ist ziemlich enttäuschend, weil es wie bei anderen eher schlechten Sprachassistenten ein paar Sekunden Verzögerung zwischen Frage und Antwort gibt.
Das muss nicht so sein. Eine lokale Demo mit Llama 2 antwortet in etwa 0,5 Sekunden und fühlt sich eher wie ein Gespräch mit einem echten Menschen an als wie Siri.
Man müsste das noch so paketieren, dass Leute es ausprobieren können, aber es gibt das knifflige Problem zu erkennen, ob der Nutzer fertig gesprochen hat. In fertigen Spracherkennungssystemen fehlen Datensätze und Modelle für Turn-Taking in Gesprächen, und ein Unternehmen wie OpenAI könnte so etwas vermutlich leicht erstellen.
- Stimme voll zu. Latenz ist der Schlüssel, um ein großartiges Spracherlebnis zu ermöglichen. Eine kurze Demo, an der ich für Sprachbestellungen arbeite, gibt es hier: https://youtu.be/WfvLIEHwiyo
  Die gesamte Roundtrip-Latenz von Speech-to-Text über LLM und POS zur SKU-Validierung bis zur erneuten Sprachausgabe liegt im Bereich von einigen Hundert Millisekunden. Durch die SKU-Validierung sind Halluzinationen unmöglich, und so fühlt es sich ziemlich natürlich an. Wenn man eine derart niedrige Latenz zu einem allgemeinen System macht, dürfte das viele Anwendungen stark voranbringen.
- Genau. Es muss bereit sein, sobald ich aufhöre zu sprechen, und ich muss dazwischenreden können.
  Wenn das möglich ist, kann es vorsichtig anfangen zu sprechen, wenn ich kurz pausiere, und sofort aufhören, wenn ich weiterrede.
  Ich will mir keine Gedanken darüber machen müssen, wie ich die Interaktion wie eine explizite Aufruf-/Antwortkette strukturiere, und ich will auch nicht vorsichtig sein müssen, damit es nicht im falschen Moment loslegt, nur weil ich nicht ununterbrochen spreche, bis ich meinen Gedanken abgeschlossen habe.
- Zu erkennen, ob der Nutzer fertig gesprochen hat, ist manchmal nicht nur für die Zuhörerseite schwierig, sondern auch für die sprechende Person.
  Höfliches Dazwischenreden oder dessen Fehlen könnte auch ein Erkennungsmerkmal dafür werden, dass wir mit einer KI sprechen.
- Ich frage mich, ob du einen GitHub-Link teilen kannst. Wo reduzierst du die Latenz? Verarbeitest du Roh-Audio als Text?
  Meiner Erfahrung nach ist die Generierungszeit von ChatGPT viel schneller als bei lokalem Llama, sofern man nicht ein kleines Modell wie 7B verwendet.
- Ich frage mich, wann Computer anfangen, auch Intonation zu berücksichtigen. Das würde wirklich helfen, das Ende einer Phrase zu verstehen.
  In der Intonation steckt enorm viel Information, die in reinem Text nicht vorhanden ist. Eine KI, die diesen Teil der Sprache nicht versteht, wird, egal wie klug sie ist, immer irgendwie dumm bleiben.
Das Fahrradbeispiel ist niedlich und beeindruckend, aber die Interaktion mit Menschen scheint das größere Potenzial zu verdecken.
Mit ein paar Anpassungen wird das zu einem universellen Solver für Roboterplanung. Bis zu tatsächlich funktionierenden Lösungen bleiben noch ein paar schwierige Probleme, aber eines davon ist damit gewissermaßen gelöst.
Werden wir in den nächsten fünf Jahren von ChatGPT gesteuerte Universalroboter sehen, die einfache Arbeiten erledigen?
- Das Fahrradbeispiel war für ein Demovideo schwach und sogar verwirrend.
  1. Es war nicht klug genug, im ersten Bild zu erkennen, dass es sich um eine verschraubte Sattelklemme handelt. Ein Mensch kann das erkennen.
  2. Das Handbuch war für die Zuschauer nicht sichtbar, daher weiß man nicht, woher das Modell weiß, dass es eine 4-mm-Schraube ist, oder ob es nur geraten hat, weil das am plausibelsten war.
  3. Ich verstehe auch nicht, woher es weiß, dass der Werkzeugkasten metrische Innensechskantschlüssel enthält.
    Außerdem frage ich mich, ob das dasselbe Vision-Modell ist, das bereits in Bing Chat steckt.
- Google hat das schon vor ein paar Monaten demonstriert.
  https://www.deepmind.com/blog/rt-2-new-model-translates-visi...
- Ehrlich gesagt hätte man wohl ein überzeugenderes Beispiel wählen können. Dass es vieles erkennt, ist cool, aber ich weiß nicht, wie nützlich die Demo tatsächlich ist.
  Jemand mit Werkzeugkasten und Handbuch stellt eine sehr grundlegende Frage dazu, wie man einen Fahrradsattel absenkt. Wer hat schon ein Fahrradhandbuch, frage ich mich, und mein fünfjähriges Kind könnte das auch.
  Es gibt bestimmt bessere Möglichkeiten, den bahnbrechenden Einfluss von KI auf die Menschheit zu zeigen. Zur Not sogar, wie man Schnürsenkel bindet.
- Stimmt, aber der ökologische Fußabdruck ist enorm.
  Für kleine, leichte Roboter wie Drohnen ist das auch nicht geeignet.
- Darauf freue ich mich am meisten. Kürzlich gab es einen kleinen Durchbruch: https://pressroom.toyota.com/toyota-research-institute-unvei...
Mit dieser Ankündigung dürften ziemlich viele Startups, die auf ChatGPT Multimodalität bauen wollten, erledigt sein.
Wenn man sieht, wie schnell sogar Use Cases mit Bildern und Sprache gelöst werden, könnte daraus in nicht allzu ferner Zukunft eine einzige App werden, die alles beherrscht.
Schon jetzt zeichnen sich der Ersatz für Alexa/Siri/Google Home, der Ersatz für die Google-Bildersuche und der Niedergang von EdTech-Startups ab, bei denen man ein Foto macht und die KI ein Problem lösen lässt; wahrscheinlich kommt noch mehr.
- Rückblickend hätten solche Startups vorsichtig sein müssen. Sie hätten wissen müssen, dass OpenAI Whisper hat und dass GPT-4 mit Blick auf Bildformate entwickelt wurde.
  Man kann nicht sagen, dass OpenAI seine Absichten offen durchsickern ließ, aber die erste strategische Frage hätte lauten müssen: „Warum macht OpenAI das noch nicht, und was tun wir, wenn sie es doch machen?“
- Dieses Jahr mit Google und Siri zu sprechen, war wirklich frustrierend. Auf langen Fahrten allein möchte ich einfach über zufällige Themen reden, um etwas zu lernen.
  Den ganzen Sommer über wollte ich mit ChatGPT „sprechend“ mehr über Französisch, Musiktheorie, Geschichte oder Mathematik lernen. Diese Funktion scheint genau dafür zu passen.
- Allgemeine KI-Tools oder -Apps zu bauen, fühlt sich zunehmend wie eine schlechte Entscheidung an. Es scheinen zwei tragfähige KI-Geschäftsmodelle zu geben:
  1. Domänenspezifische KI: KI-Modelle für hoch technische und konkrete Themen trainieren, in denen allgemeine KI-Modelle nicht gut sind.
  2. Integration: Wenn man auf bestehenden KI-Modellen aufbaut, sollte man sich nicht auf zusätzliche Features konzentrieren, sondern auf die Integration in bestehende Workflows von Unternehmen und Nutzern. Wer interne Prozesse automatisiert und Systeme auf zuvor unmögliche Weise verbindet, kann großen Wert schaffen; für die KI-Modellfirmen selbst ist das auch schwer umzusetzen.
    Beides wird oft zusammengehen.
- Wer die Feature-Releases von OpenAI verfolgt hat, konnte eigentlich erwarten, dass ChatGPT multimodal wird.
  Die App hat bereits Spracheingabe. Noch wird Sprache vor dem Senden in Text umgewandelt, aber das funktioniert so gut, dass kaum Kontrolle oder Korrektur nötig ist. Ich habe mich eher gefragt, warum sie noch nicht per Sprache antwortet.
  Bildeingabe war der Kern und das Highlight der GPT-4-Ankündigung im März: https://openai.com/research/gpt-4
- Müssen sie wirklich sterben? Könnten sie nicht einfach auf Multimodalität auf Basis von Llama 2 oder anderen Open-Source-Modellen pivotieren? Das wäre wohl keine riesige Umstellung.
  Viele Unternehmen, Behörden usw. können wegen ihrer eigenen Richtlinien OpenAI nicht nutzen, weil dabei Daten an einen Drittanbieterdienst geschickt werden. Für etwas, das on-premises oder in der eigenen Private Cloud laufen kann, werden sie zahlen.
Das wird ein Dolchstoß sein, der Online-Bildung unmöglich macht.
Schon mit ChatGPT allein konnte man fachliche Textaufgaben kopieren und einfügen und mit 90 % Genauigkeit Antworten bekommen. Die einzige Schwäche waren Aufgaben mit Diagrammen oder Abbildungen.
Mit Bildunterstützung müssen Studierende nur noch Screenshots oder gescannte Dokumente hochladen, um von ChatGPT brauchbare Antworten zu erhalten. Meiner Ansicht nach werden viele Studierende diese Funktion bereitwillig missbrauchen. Als Reaktion müsste man entweder das Bewertungssystem aufgeben oder Präsenzunterricht erzwingen, bei dem Aufgaben ohne Hausaufgaben nur unter Aufsicht in der Schule erledigt werden.
- Es gibt auch eine andere Möglichkeit. Das könnte nicht die Arbeit der Schüler ersetzen, sondern die Arbeit der Lehrkräfte.
  Der größte Nutzen von ChatGPT lag für mich darin, verschiedene Themen selbstständig zu lernen. Man kann es wie ein sokratisches Seminar verwenden, in dem man ChatGPT Fragen stellt, um X zu lernen.
  Natürlich wird es die Fähigkeit von Schülern, Hausaufgaben zu erzeugen, drastisch verändern, aber es kann auch von Grund auf verändern, wie Schüler lernen. Durch KI-gestütztes Tutoring können Online-Schulen viel mehr werden als heute.
  Es scheint auch eine Zukunft möglich, in der Bildung deutlich stärker dezentralisiert ist, Schüler Lehrplan und Methode selbst wählen und dadurch ein Gefühl von Besitz und Kontrolle über ihre Arbeit haben, sodass sie sie nicht nur als „Beschäftigungstherapie“ sehen.
- Stimmt.
  Wenn die herausragendsten Talente unserer Zeit entschieden haben, dass es für den Fortschritt der Spezies am besten ist, Menschen durch Maschinen zu ersetzen, fragt man sich, welchen Sinn Schularbeit überhaupt noch hat.
  Wenn man heute 16 ist, ChatGPT und OpenAIs Pläne kennt, einerseits hört, man solle hart lernen, um einen guten Job zu bekommen, und andererseits liest, welche Zukunft Technokraten vor Augen haben, dürfte das ziemlich verwirrend sein.
  Es muss gerade wirklich schwer sein, lernen zu wollen und zugleich nicht zu betrügen.
- Dabei wird übersehen, dass Lehrkräfte bald LLMs mit einer Kamera sein werden, die auf die Schüler gerichtet ist.
  Warum sollte man im Online-Unterricht unbedingt das Video eines Menschen sehen? Warum sollte man Schüler dazu bringen, in einem dunklen Raum irgendetwas zu produzieren?
  Die Bewertung von Schülern wird nicht auf Hausaufgaben beruhen, sondern auf den Gesprächen, die ein KI-Assistent mit ihnen geführt hat. Lehren kann automatisiert werden, Lernen aber nicht.
  Im Moment gibt es nur eine Zeitverzögerung, weil Bildung noch nicht aufgeholt hat; da Bildung teuer ist, wird das schnell gelöst werden. Eltern müssen ihre Kinder wirklich dazu ermutigen, Lernübungen wie früher zu machen, und ChatGPT sollte wie Wikipedia genutzt werden. In der Übergangsphase wird eine Generation darunter leiden.
- Wenn im schulischen Kontext von Missbrauch von ChatGPT die Rede ist, geht es meist um Schüler ab der Oberstufe oder um Studierende. Sie kennen den Unterschied zwischen richtig und falsch und haben sowohl die motorischen Fähigkeiten als auch den Zugang, um solche Tools zu nutzen.
  Das konkrete Bedürfnis, das sie lösen wollen, ist, Hausaufgaben oder Essays loszuwerden, um XYZ zu tun. Wahrscheinlich wird ChatGPT für XYZ nicht genutzt. Dann sollte man eben das zum Gegenstand ihrer Zeit machen.
  Irgendwann werden sie die benötigten Fähigkeiten rückwärts erschließen und lernen müssen und pädagogische Anleitung und Struktur brauchen. Das ist weder einfach noch geschieht es ohne Zeit und Ressourcen, aber so läuft Anpassung ab.
- Bei einer Zertifizierungsprüfung lief einmal eine App auf meinem Computer, die überprüfte, dass nichts anderes geöffnet war, und während der gesamten Prüfung musste die Kamera eingeschaltet sein, sodass mein Körper und meine Hände sichtbar waren.
  Es gibt Wege, Betrug so schwierig zu machen, dass er sich nicht lohnt. Allerdings wird diese Technologie stark verändern, was wir lernen und wie wir lernen. Sie ist transformativ, und ihr Tempo wird nicht nachlassen.
Mir gefällt nicht, wie sie Web-Browsing, also die Bing-Browsing-Chatfunktion, monatelang deaktiviert und dann stillschweigend entfernt haben
Eine ordentliche Ankündigung, dass die Funktion entfernt wird, wäre gut gewesen. Vielleicht habe ich sie verpasst, aber die letzte offizielle Nachricht war, dass sie vorübergehend deaktiviert wird, während man etwas repariert. Irgendwann war sie dann ohne ein Wort komplett von der Plattform verschwunden
- In meinem Konto ist Browsing with Bing derzeit als Plugin aktiviert. Es war ein paar Monate verschwunden und kam vor etwa ein bis zwei Wochen plötzlich zurück
- Das war enttäuschend, und ich stimme zu, dass es so aussieht, als würden sie es vorerst nicht wieder aktivieren
  Allerdings nutzt Perplexity AI die Websuche besser als ChatGPT, deshalb verwende ich es häufiger als ChatGPT
- Ich habe mir extra ein Konto erstellt, um das zu sagen: Ich habe diese Funktion derzeit. Sie war ein paar Monate verschwunden und scheint letzte Woche zurückgekommen zu sein
  Es ist auch kein Plugin, sondern ein separates „Modell“, das man auswählen kann
- Stimme zu. Jetzt muss man sich auf Drittanbieter-Plugins verlassen
Die bislang intuitivste Killer-App-User-Experience scheint Text-Chat zu sein
Mit Bildern zu interagieren, die man zeigt, ist ebenfalls interessant, weil es sich anfühlt, als würde man mit einem Freund über ein Thema sprechen. Aber man muss sehen, ob es sich anfühlt, als würde man mit einer sehr klugen Person wie ChatGPT sprechen, oder mit einer sehr begriffsstutzigen Person, die Objekte einigermaßen erkennt
Einen Schraubenschlüssel zu erkennen ist nicht so beeindruckend, wie mit ChatGPT über Geschichte zu sprechen oder es tatsächlich funktionierenden Code schreiben zu lassen
OpenAI macht vieles richtig. Menschen denken sich interessante Use Cases aus, aber die Hauptart, wie die meisten mit AI interagieren, scheint weiterhin ChatGPT zu sein
Bildgenerierung haben sie meiner Ansicht nach allerdings noch nicht richtig im Griff, und die coolen Dinge kommen weiter von MidJourney und Stable Diffusion
- OpenAI will Anfang Oktober ebenfalls DALL-E 3 veröffentlichen, und die für die Demo ausgewählten Bilder zeigen ein beispielloses Prompt-Verständnis
  Es scheint sogar möglich zu sein, vollständige Sätze als Text in das Ausgabebild einzubauen
Ich hatte ein paar Hobbyprojekte gebaut, die mehrere AI-Services zusammenbinden sollten, um genau das umzusetzen. Ich freue mich darauf, dass die Komplexität und Latenz durch die vielen Hin-und-her-Schritte sinkt
Wenn die API rechtzeitig kommt, also etwa zu Halloween, dürfte die Softwareseite eines multimodalen Projekts mit einem sprechenden Totenschädelkopf samt ESP32-Kamera, der sich über die Kostüme von Leuten lustig macht, etwas einfacher werden
- Ironischerweise habe ich genau aus diesem Grund so einen Versuch gar nicht erst unternommen
- Wenn du es baust, wäre es toll, wenn du den Ablauf oder Details teilst. Das klingt wirklich cool, und ich würde gern etwas Ähnliches bauen
- Ich würde das fertige Projekt unbedingt sehen wollen. Meine E-Mail steht im Profil
Aus meiner tiefen Perspektive in der Softwaretest-Automatisierung warte ich auf robuste AI-basierte Bilderkennung für App-Benutzeroberflächen
In Kombination mit der Fähigkeit von AI, Testautomatisierungscode zu schreiben, hoffe ich, dass sich aus einem einzelnen Screenshot oder einer Screenshot-Sequenz ausführbarer Selenium- oder Appium-Testcode erzeugen lässt. Es fühlt sich an, als wären wir fast so weit
- Ich empfehle Googles Spotlight-Paper[1]. Die Datensätze, die sie für diesen Zweck erstellt haben, sind sehr interessant
  Sie sagen, dass sie intern einen Screen-Action-Screen-Datensatz haben, aber ich glaube nicht, dass sie ihn veröffentlichen werden. Das ist wohl einer der Vorteile, wenn man Android besitzt
  Es gibt auch das jüngere Paper IDEFICS[2] von Hugging Face. Es behauptet, eine Open-Source-Implementierung von Flamingo zu sein, also eines älteren Papers zum Verstehen multimodaler Aufgaben mit wenigen Beispielen. Dieses Feld dürfte bald sehr heiß werden
  [1] https://research.google/pubs/pub52171/
  [2] https://huggingface.co/blog/idefics
Mein größter Kritikpunkt an OpenAI/ChatGPT ist das miserable Marketing
Wenn sie solche Funktionen oder Plugins ankündigen, freue ich mich darauf und gehe sie ausprobieren, aber sie sind für mich noch nicht ausgerollt. Als zahlender Kunde ist das frustrierend, und alles, was ich tun kann, ist täglich nachzusehen
Sie schicken nicht einmal E-Mails wie „Plugins sind verfügbar“ oder „Voice Chat wurde für dein Konto aktiviert“, sodass ich neue Funktionen oft vergesse, bis ich später zufällig wieder nachsehe
Ich habe gerade die App geöffnet und bin in den Einstellungen zu „New Features“ gegangen, und Bing Browsing war deaktiviert. Ich wusste nicht einmal, dass es irgendwann funktioniert hatte. Ich dachte, vielleicht brauche ich ein App-Update, ging in den App Store, aber sie war aktuell; nachdem ich die App geschlossen und wieder geöffnet hatte, war nun der Eintrag „New Features“ selbst verschwunden
Ich werde nicht regelmäßig die App-Einstellungen durchwühlen, um nach neuen Funktionen zu suchen. Dass es weder E-Mail noch Push gibt, nicht einmal eine In-App-Nachricht, ist wirklich unverständlich
- Aus einer Nischenforschungsfirma wurde vermutlich das am schnellsten wachsende Startup der Geschichte
  Ich glaube nicht, dass ihnen die Kommunikation mit Kunden egal ist, aber intern dürfte völliges Chaos und Durcheinander herrschen
- Ihr Marketing wirkt, als hätte ein Drei-Personen-Startup ein SaaS-Starter-Template gefunden, Stripe irgendwie drangeflanscht und sich nie wieder umgesehen
  Um die API nutzen zu können, musste ich mein Abo tatsächlich kündigen und neu abschließen. Ich war vermutlich noch auf einer alten Version des Abrechnungsmodells
  Ich mag Firmen, die nicht wegen Marketing und Design erfolgreich sind, sondern trotzdem. Das bedeutet, dass sie wirklich etwas Besonderes haben
- Wir steuern auf die Singularität zu, und du beschwerst dich über Marketing?
- Wenn „alles, was ich tun kann, ist täglich nachzusehen“ gilt, dann scheint das Marketing ziemlich gut zu funktionieren
  Wenn du einfach gehen und es vergessen würdest, müssten sie die Retention verbessern, aber das wirst du nicht, also müssen sie das auch nicht
- Wenn die größte Nutzerbeschwerde darin besteht, dass man frustriert ist, weil man eine Funktion noch nicht nutzen kann, dann machen sie wirklich verdammt viel richtig
Ich verstehe nicht, wie man das alles für 20 Dollar im Monat bündeln kann. Werden die Rechenkosten bei größerer Skalierung wirklich so billig?
Ich frage mich auch, wie Apple und Google das kostenlos anbieten wollen. Ich würde gern wie eine Fliege an der Wand in diesem Meeting sitzen. Zwischen „müssen wir machen“ und „das frisst unsere Margen auf“ dürfte es jede Menge Diskussionen im Stil des Innovator’s Dilemma geben.
Vielleicht ist das etwas weit hergeholt, aber ich glaube, Apple trifft die richtige Entscheidung, erst einmal abzuwarten, bis sich der Staub gelegt hat. So wie Zuckerberg 20 Milliarden Dollar verbrannt hat und Apple dann den Vision Pro herausgebracht hat, könnte bei Llama etwas Ähnliches passieren. Allerdings ist Software das Heimspielfeld von Facebook und Hardware nicht, deshalb bin ich mir da weniger sicher.
- Rechenkosten sind nicht billig. Wie Altman selbst gesagt hat, ist allgemein bekannt, dass OpenAI derzeit viel Geld verbrennt.
  Aber angesichts der 10-Milliarden-Dollar-Investition von Microsoft sowie der Einnahmen aus Abos und API ist das im Moment in Ordnung. Für AI-Unternehmen ist das ein entscheidender Moment, und OpenAI versucht faktisch, möglichst viel Marktanteil zu gewinnen, indem es zu niedrigeren Preisen als andere kommerzielle Modelle einen zehnfachen Wert bietet.
- Das ist derselbe Grund, warum Uber in New York früher für dieselbe Strecke 20 Dollar gekostet hat und heute 80 Dollar.
  Venture Capital subventioniert die Markteroberung.
- Es ist auch gut möglich, dass sie nahe an den Kosten oder darunter abrechnen, weil sie die Daten der Nutzer wollen.
  Man muss nur überlegen, wie viel man bezahlen müsste, um Tester in großem Maßstab anzuheuern.
- Vermutlich wollen sie mit Microsofts Kapitalspritze den Markt plattmachen und danach die Preise erhöhen.
- Ich denke, wenn man viele Anfragen parallel verarbeitet, kann das deutlich günstiger sein, als sie einzeln abzuarbeiten.

Sprachgespräche und Bildeingabe für ChatGPT eingeführt

Neue Eingabeformen für ChatGPT: sprechen, zeigen und fragen

Nutzer und Plattformen mit frühem Zugang

So funktioniert die Sprachfunktion

So funktioniert die Bildfunktion

Schrittweise Einführung und Schutzmaßnahmen

Risiken und Einschränkungen bei Sprache

Risiken und Einschränkungen bei der Bildeingabe

Modellgrenzen und Hinweise zur Nutzung

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News