Das Plädoyer gegen konversationelle Interfaces

(julian.digital)

25 Punkte von GN⁺ 2025-04-03 | 5 Kommentare | Auf WhatsApp teilen

In der Tech-Branche wiederholt sich alle paar Jahre mit dem Auftauchen einer neuen KI-Technologie die Illusion: „Diesmal wird ein natürlichsprachliches Interface alles verändern“
Siri, Alexa, Chatbots, die AirPods-Plattform und zuletzt große Sprachmodelle (LLMs) folgen genau diesem Muster
In der Praxis hat sich unsere Art, Computer zu benutzen, jedoch kaum verändert
Menschen neigen dazu zu glauben, natürliche Sprache sei „natürlich“ und deshalb zwangsläufig die endgültige Form
Die These dieses Textes ist, dass natürlichsprachliche Interfaces kein Idealzustand sind und in Wirklichkeit keine effiziente Methode darstellen

Natürliche Sprache ist eine langsame und verlustbehaftete Form der Datenübertragung

Natürliche Sprache ist ein Mechanismus zur Datenübertragung, mit dem Menschen Ideen und Wissen untereinander austauschen
Bei der Datenübertragung sind zwei Faktoren entscheidend: Geschwindigkeit und Verlustbehaftung (lossiness)
Wir denken mit einer Geschwindigkeit von etwa 1.000 bis 3.000 Wörtern pro Minute, aber unser Sprech- oder Schreibtempo ist deutlich langsamer
Zum Beispiel ist Lesen/Hören (Empfang) schnell, während Schreiben/Sprechen (Senden) langsam ist → natürliche Sprache ist ein Flaschenhals
Stattdessen nutzen Menschen Gesten wie Daumen hoch oder Nicken, um schneller und knapper zu kommunizieren
Das ähnelt Datenkompression → verlustbehaftet, aber in Bezug auf Tempo und Bequemlichkeit sehr effektiv
Das effizienteste Beispiel wirkt wie der Moment, in dem ein lang verheiratetes Paar die Bedürfnisse des anderen erkennt, ohne ein Wort zu sagen

Die Evolution der Interaktion zwischen Mensch und Computer

Frühe Computer nutzten befehlsbasierte Text-Interfaces, doch mit der Einführung von GUIs konnten Aufgaben über visuelle Elemente deutlich leichter erledigt werden
Heute befinden wir uns in einem Produktivitätsgleichgewicht aus GUI und Tastaturkürzeln
Kürzel wie ⌘b, ⌘t oder ⌘c/v sind keine natürliche Sprache, sondern eine Form der Datenkompression und daher viel schneller und effizienter
Tools wie Linear, Raycast und Superhuman maximieren diese komprimierte Eingabe → mit genügend Übung lassen sich Aufgaben fast gleichzeitig mit dem Gedanken ausführen
Touch-Interfaces haben sich als ergänzende Funktion etabliert, doch echte Produktivitätsarbeit findet weiterhin am Desktop statt
Auf Mobilgeräten ist Texteingabe langsam und unkomfortabel (im Schnitt 36 WPM) → es gibt keine passende Alternative zu Shortcuts für Mobile
Deshalb konnten sich Produktivitäts-Tools auf Mobile nicht so weit entwickeln wie auf dem Desktop

Konversationelle Interfaces sind bei der Eingabegeschwindigkeit im Nachteil

Sprache ist zwar ein schnelleres Eingabemittel als Tippen (150 WPM vs. 60 WPM), in der Praxis aber ineffizient
Beispiel: „Hey Google, sag mir das Wetter“ ist zehnmal langsamer, als einfach auf ein App-Icon zu tippen
Der Grund für das Scheitern von Siri und Alexa lag nicht in der Qualität der KI-Ausgabe, sondern in der Umständlichkeit der Eingabemethode
Auch LLMs lösen die Ineffizienz der Eingabeform nicht
Etwas, das sich mit einem Knopf erledigen lässt, in einem ganzen Satz zu beschreiben, ist eher ein Rückschritt

Konversationelle UI sollte als Ergänzung genutzt werden

LLMs sind nicht als Ersatz für bestehende Interfaces nützlich, sondern als Ergänzung äußerst wertvoll
Der Autor hat diesen Text tatsächlich bei Spaziergängen über Sprachgespräche mit ChatGPT entworfen → als Denkpartner genutzt
Dabei geht es nicht um geschwindigkeitszentrierte, sondern um denkzentrierte Arbeit; es ersetzt keinen bestehenden Workflow, sondern ist ein vollständig neuer Anwendungsfall
Das ideale Beispiel ist ein Hackathon-Projekt, das Alexa in StarCraft II als ergänzende Eingabe nutzte
- Maus und Tastatur wurden nicht ersetzt, sondern Sprache als zusätzlicher Eingabekanal verwendet, um die Bandbreite der Datenübertragung zu erweitern
Tools wie Figma, Notion oder Excel werden nicht durch Chat-UIs ersetzt werden
Stattdessen sollten LLMs sich als ständig aktive Meta-Ebene etablieren, die Tools miteinander verbindet
- Beispiel: Während Nutzer mit Maus oder Tastatur arbeiten, sollten sie parallel per Sprache einfache Befehle ausführen können
Dafür darf KI nicht nur eine einzelne App sein, sondern muss auf Betriebssystemebene arbeiten
Gleichzeitig braucht es auch Wege, Spracheingabe noch schneller zu machen, etwa durch Pfeifen oder Emotionserkennung
Selbst bei konversationellen Interfaces bleiben Geschwindigkeit und Bequemlichkeit am Ende entscheidend

Fazit: Nicht als Ersatz, sondern als Ergänzung betrachten

Der Titel dieses Textes ist bewusst zugespitzt, um Klicks zu erzeugen
Die eigentliche Aussage ist nicht „gegen konversationelle Interfaces“, sondern gegen ein Nullsummendenken
KI ersetzt bestehende Interfaces nicht, sondern ist ein ergänzendes Element, das neue Möglichkeiten eröffnet
Die ideale Zukunft ist eine natürliche und unbewusste Interaktion zwischen Mensch und Computer
- So wie am Frühstückstisch die Butter gereicht wird, ohne dass jemand etwas sagen muss

5 Kommentare

dbs0829 2025-04-04

Ich habe mir in Bezug auf die Interface-Seite auch ähnliche Gedanken gemacht, aber mir ist keine wirklich passende neue Schnittstelle eingefallen.

winterjung 2025-04-03

Der im Artikel vorgestellte Beitrag https://upsidelab.io/blog/design-voice-user-interface-starcraft ist zwar von 2018, aber trotzdem interessant.

girr311 2025-04-03

Ich bin gespannt, auf welche Weise künftig ausgewählt und genutzt wird.

fantajeon 2025-04-03

Menschen mögen in Gesprächen keine Unsicherheit und können daher den Wunsch nach präziser Wortwahl nur schwer aufgeben. ChatAI oder LLMs bringen jedoch von Natur aus Unsicherheit mit sich. Wenn probabilistische Information nur bei mir liegt, ist das in Ordnung, aber wenn auch das Gegenüber auf Wahrscheinlichkeiten angewiesen ist, verursacht das Stress. Manchmal kann sich ein deterministischer Ansatz einfach angenehmer anfühlen.

GN⁺ 2025-04-03

Hacker-News-Kommentar

Das macht viele Dinge klar, die ich Leuten mit Interesse an einem „Gespräch“ mit Computern zu erklären versucht habe
- Als Beispiel wird die Situation angeführt, sich vorzustellen, ein Auto nur per Sprache zu steuern
- Das ist unbequem, macht es unmöglich, sich mit Mitfahrern zu unterhalten, und ein Gespräch mit dem Computer dient dazu, ihn dazu zu bringen, das Gewünschte zu tun
- Es gibt einfachere und schnellere Wege, als in natürlicher Sprache zu sprechen
Was am Artikel falsch ist
- Die Behauptung: „Natürliche Sprache ist ein Mechanismus zur Datenübertragung“
- Bei Mechanismen zur Datenübertragung sind Geschwindigkeit und Verlust wichtig
- Natürliche Sprache besitzt diese beiden Eigenschaften nicht
- Die Hauptmerkmale eines dialogbasierten Interface sind eher „Wonne der Unwissenheit“ und „intelligente Interpretation“ als Informationsübermittlung
- „Wonne der Unwissenheit“ bedeutet, dass man ein Ziel vorgeben kann, ohne wissen zu müssen, wie es erreicht wird
- „Intelligente Interpretation“ ermöglicht es, eher Absichten als Befehle zu interpretieren
- Ähnlich wie beim Team-Management kann man bei einem erfahrenen Team schon mit knappen Anweisungen gute Ergebnisse erwarten
Star Trek zeigt den angemessenen Einsatz dialogbasierter Interfaces gut
- Ein Sprachinterface ergänzt die manuelle Eingabe und wird als Hilfskanal genutzt
- Es eignet sich nicht für spezifische Steuereingaben per Sprache, sondern für Delegation, Anfragen und ortsunabhängige Nutzung
- Sprachinteraktion wurde in Form von Erklärungen eingesetzt; man hatte wohl ein gutes Gespür dafür, was unnatürlich wirkt
Eine Sprach-UI ist am effektivsten, wenn sie zusammen mit Tastatur/Maus verwendet wird
- Visuelles Gedächtnis und auditives Gedächtnis haben getrennte Puffer, und der auditive Puffer hat noch Spielraum
- Per Sprache nach dem Wetter zu fragen ist schneller, als eine App zu öffnen
- Sprache wird automatisch komprimiert und schafft neue Wörter für komplexe Konzepte
- So wie man Buchtitel abkürzt, kann auch eine Sprach-UI effizient gestaltet werden
Man muss Wege finden, Spracheingaben schneller zu übertragen
- Das erinnert mich an Travis Rudds Video, in dem er Python per Sprache programmiert
- Beeindruckend war die Erfahrung, Lernmaterial über ein Sprachinterface zu lesen und Quizfragen zu beantworten
Der Titel des Artikels kann irreführend sein
- Ein Titel, der nur zum Klicken verleiten soll, ist nicht gut
Extrovertierte und managerhafte Menschen bevorzugen es, zur Problemlösung einfach Worte in den Raum zu werfen
- Beim Schreiben von E-Mails ist es wichtig, den Eindruck zu vermitteln, verschiedene Optionen bedacht zu haben
- Die Leute, die tatsächlich die Arbeit machen, erkennen, dass es ineffizient ist, mit dem Computer einfach drauflos zu reden
Bis vor 20–30 Jahren waren Menschen nicht computerisiert
- Es gab die Behauptung, Wearable Computing sei die Zukunft
- Aber von Bildschirmen und Fernbedienungen abhängig zu sein, ist nicht besonders menschlich
- Menschen benutzen lieber eine Fernbedienung
Text-zu-CAD-AI-Tools verstehen die Anforderungen der Nutzer nicht besonders gut
- Eine Maschinenwerkstatt will eine Zeichnung, kein 300-Wörter-Gedicht
Die Beziehung zu Computern sollte eher wie Telepathie werden
- Es ist noch schlimmer, wenn der Computer alles an unserer Stelle übernimmt
- Es ist einfacher, Menschen beizubringen, wie Computer zu denken
- JavaScript löst mit 20 % Funktionalität 80 % der Probleme
- ChatGPT/Bard/Gemini schreiben JavaScript anstelle des Menschen
- Mobile Interfaces eignen sich nicht zum Tippen