- In der Tech-Branche wiederholt sich alle paar Jahre mit dem Auftauchen einer neuen KI-Technologie die Illusion: „Diesmal wird ein natürlichsprachliches Interface alles verändern“
- Siri, Alexa, Chatbots, die AirPods-Plattform und zuletzt große Sprachmodelle (LLMs) folgen genau diesem Muster
- In der Praxis hat sich unsere Art, Computer zu benutzen, jedoch kaum verändert
- Menschen neigen dazu zu glauben, natürliche Sprache sei „natürlich“ und deshalb zwangsläufig die endgültige Form
- Die These dieses Textes ist, dass natürlichsprachliche Interfaces kein Idealzustand sind und in Wirklichkeit keine effiziente Methode darstellen
Natürliche Sprache ist eine langsame und verlustbehaftete Form der Datenübertragung
- Natürliche Sprache ist ein Mechanismus zur Datenübertragung, mit dem Menschen Ideen und Wissen untereinander austauschen
- Bei der Datenübertragung sind zwei Faktoren entscheidend: Geschwindigkeit und Verlustbehaftung (lossiness)
- Wir denken mit einer Geschwindigkeit von etwa 1.000 bis 3.000 Wörtern pro Minute, aber unser Sprech- oder Schreibtempo ist deutlich langsamer
- Zum Beispiel ist Lesen/Hören (Empfang) schnell, während Schreiben/Sprechen (Senden) langsam ist → natürliche Sprache ist ein Flaschenhals
- Stattdessen nutzen Menschen Gesten wie Daumen hoch oder Nicken, um schneller und knapper zu kommunizieren
- Das ähnelt Datenkompression → verlustbehaftet, aber in Bezug auf Tempo und Bequemlichkeit sehr effektiv
- Das effizienteste Beispiel wirkt wie der Moment, in dem ein lang verheiratetes Paar die Bedürfnisse des anderen erkennt, ohne ein Wort zu sagen
Die Evolution der Interaktion zwischen Mensch und Computer
- Frühe Computer nutzten befehlsbasierte Text-Interfaces, doch mit der Einführung von GUIs konnten Aufgaben über visuelle Elemente deutlich leichter erledigt werden
- Heute befinden wir uns in einem Produktivitätsgleichgewicht aus GUI und Tastaturkürzeln
- Kürzel wie ⌘b, ⌘t oder ⌘c/v sind keine natürliche Sprache, sondern eine Form der Datenkompression und daher viel schneller und effizienter
- Tools wie Linear, Raycast und Superhuman maximieren diese komprimierte Eingabe → mit genügend Übung lassen sich Aufgaben fast gleichzeitig mit dem Gedanken ausführen
- Touch-Interfaces haben sich als ergänzende Funktion etabliert, doch echte Produktivitätsarbeit findet weiterhin am Desktop statt
- Auf Mobilgeräten ist Texteingabe langsam und unkomfortabel (im Schnitt 36 WPM) → es gibt keine passende Alternative zu Shortcuts für Mobile
- Deshalb konnten sich Produktivitäts-Tools auf Mobile nicht so weit entwickeln wie auf dem Desktop
Konversationelle Interfaces sind bei der Eingabegeschwindigkeit im Nachteil
- Sprache ist zwar ein schnelleres Eingabemittel als Tippen (150 WPM vs. 60 WPM), in der Praxis aber ineffizient
- Beispiel: „Hey Google, sag mir das Wetter“ ist zehnmal langsamer, als einfach auf ein App-Icon zu tippen
- Der Grund für das Scheitern von Siri und Alexa lag nicht in der Qualität der KI-Ausgabe, sondern in der Umständlichkeit der Eingabemethode
- Auch LLMs lösen die Ineffizienz der Eingabeform nicht
- Etwas, das sich mit einem Knopf erledigen lässt, in einem ganzen Satz zu beschreiben, ist eher ein Rückschritt
Konversationelle UI sollte als Ergänzung genutzt werden
- LLMs sind nicht als Ersatz für bestehende Interfaces nützlich, sondern als Ergänzung äußerst wertvoll
- Der Autor hat diesen Text tatsächlich bei Spaziergängen über Sprachgespräche mit ChatGPT entworfen → als Denkpartner genutzt
- Dabei geht es nicht um geschwindigkeitszentrierte, sondern um denkzentrierte Arbeit; es ersetzt keinen bestehenden Workflow, sondern ist ein vollständig neuer Anwendungsfall
- Das ideale Beispiel ist ein Hackathon-Projekt, das Alexa in StarCraft II als ergänzende Eingabe nutzte
- Maus und Tastatur wurden nicht ersetzt, sondern Sprache als zusätzlicher Eingabekanal verwendet, um die Bandbreite der Datenübertragung zu erweitern
- Tools wie Figma, Notion oder Excel werden nicht durch Chat-UIs ersetzt werden
- Stattdessen sollten LLMs sich als ständig aktive Meta-Ebene etablieren, die Tools miteinander verbindet
- Beispiel: Während Nutzer mit Maus oder Tastatur arbeiten, sollten sie parallel per Sprache einfache Befehle ausführen können
- Dafür darf KI nicht nur eine einzelne App sein, sondern muss auf Betriebssystemebene arbeiten
- Gleichzeitig braucht es auch Wege, Spracheingabe noch schneller zu machen, etwa durch Pfeifen oder Emotionserkennung
- Selbst bei konversationellen Interfaces bleiben Geschwindigkeit und Bequemlichkeit am Ende entscheidend
Fazit: Nicht als Ersatz, sondern als Ergänzung betrachten
- Der Titel dieses Textes ist bewusst zugespitzt, um Klicks zu erzeugen
- Die eigentliche Aussage ist nicht „gegen konversationelle Interfaces“, sondern gegen ein Nullsummendenken
- KI ersetzt bestehende Interfaces nicht, sondern ist ein ergänzendes Element, das neue Möglichkeiten eröffnet
- Die ideale Zukunft ist eine natürliche und unbewusste Interaktion zwischen Mensch und Computer
- So wie am Frühstückstisch die Butter gereicht wird, ohne dass jemand etwas sagen muss
5 Kommentare
Ich habe mir in Bezug auf die Interface-Seite auch ähnliche Gedanken gemacht, aber mir ist keine wirklich passende neue Schnittstelle eingefallen.
Der im Artikel vorgestellte Beitrag https://upsidelab.io/blog/design-voice-user-interface-starcraft ist zwar von 2018, aber trotzdem interessant.
Ich bin gespannt, auf welche Weise künftig ausgewählt und genutzt wird.
Menschen mögen in Gesprächen keine Unsicherheit und können daher den Wunsch nach präziser Wortwahl nur schwer aufgeben. ChatAI oder LLMs bringen jedoch von Natur aus Unsicherheit mit sich. Wenn probabilistische Information nur bei mir liegt, ist das in Ordnung, aber wenn auch das Gegenüber auf Wahrscheinlichkeiten angewiesen ist, verursacht das Stress. Manchmal kann sich ein deterministischer Ansatz einfach angenehmer anfühlen.
Hacker-News-Kommentar
Das macht viele Dinge klar, die ich Leuten mit Interesse an einem „Gespräch“ mit Computern zu erklären versucht habe
Was am Artikel falsch ist
Star Trek zeigt den angemessenen Einsatz dialogbasierter Interfaces gut
Eine Sprach-UI ist am effektivsten, wenn sie zusammen mit Tastatur/Maus verwendet wird
Man muss Wege finden, Spracheingaben schneller zu übertragen
Der Titel des Artikels kann irreführend sein
Extrovertierte und managerhafte Menschen bevorzugen es, zur Problemlösung einfach Worte in den Raum zu werfen
Bis vor 20–30 Jahren waren Menschen nicht computerisiert
Text-zu-CAD-AI-Tools verstehen die Anforderungen der Nutzer nicht besonders gut
Die Beziehung zu Computern sollte eher wie Telepathie werden