Interaction Models – ein skalierbarer Ansatz für die Zusammenarbeit zwischen Mensch und KI
(thinkingmachines.ai)- Kein externes Harness, sondern das Modell selbst verarbeitet Audio, Video und Text gleichzeitig in Echtzeit als Ein- und Ausgabe und arbeitet so natürlich mit Menschen zusammen
- Bestehende turnbasierte Modelle hatten einen Kollaborations-Engpass, weil sie warten, bis der Nutzer zu Ende gesprochen hat, und während der Generierung keine neuen Eingaben annehmen können
- Durch ein Microturn-Design in 200-ms-Einheiten werden Ein- und Ausgabe als kontinuierliche Streams verarbeitet, wodurch verschiedene Interaktionsmodi wie Unterbrechen, gleichzeitiges Sprechen und visuelle Reaktionen unterstützt werden
- Das System teilt Kontext zwischen einem Interaction Model für Echtzeitgespräche und einem Background Model für langfristiges Schlussfolgern und den Einsatz von Tools
- Da die Interaktivität im Modell selbst eingebaut ist, wird es mit dem Skalieren nicht nur intelligenter, sondern zugleich auch zu einem besseren Kollaborationspartner
Der Kollaborations-Engpass und das Ziel des Interaction Model
- Thinking Machines Lab hat eine Research Preview des Interaction Model vorgestellt, bei dem nicht ein externes Harness, sondern das Modell selbst die Interaktion verarbeitet
- Ziel ist, nicht nur die Intelligenz von KI, sondern auch ihre Interaktivität gemeinsam zu skalieren; das Modell nimmt Audio, Video und Text fortlaufend auf und denkt, antwortet und handelt in Echtzeit
- Viele aktuelle KI-Forschungsvorhaben und Interfaces betonen die Fähigkeit von KI, lange autonom zu arbeiten, doch bei hands-on-keyboard-Arbeit mit fortlaufender menschlicher Beteiligung kann sich das Modell zu langsam anfühlen, sodass sein Nutzen weniger deutlich wird
- Nicht dafür optimiert, den Menschen im Loop zu halten
- In der Praxis ist es schwierig, Anforderungen von Anfang an vollständig zu spezifizieren und sich dann zurückzuziehen; ein kollaborativer Prozess, in dem Menschen zwischendurch Präzisierungen und Feedback geben, führt zu besseren Ergebnissen
- Herkömmliche turnbasierte Modelle warten, bis der Nutzer seine Eingabe beendet hat, und können während der Generierung keine neuen Informationen aufnehmen, sodass sie die Realität wie ein Single-Thread erleben
- Diese Struktur begrenzt sowohl, wie viel Wissen, Absicht und Urteilskraft des Nutzers an das Modell übermittelt werden, als auch, wie viel der Mensch von der Arbeit des Modells versteht
- Thinking Machines Lab ist der Ansicht, dass zur Auflösung dieses Engpasses Echtzeitinteraktion über alle Modalitäten hinweg möglich sein muss und dass sich KI an die Arbeitsweise des Menschen anpassen sollte statt umgekehrt
- Die meisten bestehenden KI-Modelle verwenden Harnesses, die mehrere Komponenten zusammenfügen, um Unterbrechungen, Multimodalität und Gleichzeitigkeit nachzuahmen; laut The Bitter Lesson könnten handgebaute Systeme beim Ausbau allgemeiner Fähigkeiten jedoch ins Hintertreffen geraten
- Damit Interaktivität zusammen mit Intelligenz skaliert, muss sie eine interne Funktion des Modells sein; wenn das Modell wächst, sollte es nicht nur intelligenter werden, sondern auch ein besserer Kollaborationspartner
Funktionen, die durch modellinterne Interaktion möglich werden
-
Natürliches Gesprächsmanagement
- Das Modell verfolgt implizit, ob ein Sprecher noch nachdenkt, das Wort übergibt, sich selbst korrigiert oder eine Antwort hervorruft
- Es trifft diese Entscheidungen ohne separate Gesprächsmanagement-Komponente
-
Sprach- und visuell basierte Eingriffe (Unterbrechen)
- Das Modell reagiert nicht nur dann, wenn der Nutzer fertig gesprochen hat, sondern kann je nach Kontext im richtigen Moment unterbrechen
- So kann es etwa dazwischengehen, wenn der Nutzer etwas Falsches sagt, oder anhand visueller Hinweise erkennen und melden, dass in Code ein Bug geschrieben wurde
-
Gleichzeitiges Sprechen
- Nutzer und Modell können gleichzeitig sprechen, was in Situationen wie Echtzeitübersetzung nützlich ist
-
Zeitbewusstsein
- Das Modell nimmt verstrichene Zeit direkt wahr und kann Aufgaben bearbeiten, bei denen es in bestimmten Zeitabständen sprechen oder die Handlungsdauer des Nutzers messen muss
-
Gleichzeitige Ausführung von Tool-Aufrufen, Suche und generativer UI
- Das Modell kann während des Sprechens und Zuhörens mit dem Nutzer gleichzeitig Suchen, Web-Browsing und UI-Generierung ausführen
- Sobald Ergebnisse bereit sind, fügt es sie passend zum Gesprächsfluss wieder ein
- In langen realen Sitzungen laufen solche Funktionen fortwährend zusammen ab, sodass es sich eher nach Zusammenarbeit anfühlt als nach dem Absenden eines Prompts
Ansatz
-
Zeitlich ausgerichtete Mikro-Turns
- Das Interaction Model unterteilt kontinuierliche Eingabe- und Ausgabeströme in Mikro-Turns und strukturiert die Interaktion entlang der Zeit
- Turn-basierte Modelle sehen abwechselnde Tokensequenzen, während ein zeitbewusstes Interaction Model einen kontinuierlichen Mikro-Turn-Stream sieht, sodass Stille, Überlappungen und Unterbrechungen im Modellkontext erhalten bleiben
- Das Modell hält einen Zustand des fortlaufenden bidirektionalen Austauschs mit dem Nutzer aufrecht und führt Wahrnehmung und Reaktion gleichzeitig aus
- Robotik und autonomes Fahren setzen aufgrund der Anforderungen der physischen Welt Echtzeitverhalten voraus, und Audio-Full-Duplex-Modelle wie Moshi, PersonaPlex, nemotron-voicechat und Seeduplex sind ebenfalls Beispiele für bidirektionale, kontinuierliche Interaktion
-
Systemaufbau
- Das System besteht aus einem zeitbewussten Interaction Model, das Echtzeitpräsenz aufrechterhält, und einem asynchronen Background Model, das kontinuierliches Schlussfolgern, Tool-Nutzung und langfristige Aufgaben übernimmt
- Wenn tiefergehendes Schlussfolgern nicht sofort erzeugt werden kann, delegiert das Interaction Model an das Background Model
- Auch während der Delegation bleibt das Interaction Model weiter beim Nutzer, beantwortet Rückfragen, nimmt neue Eingaben entgegen und hält den Gesprächskontext aufrecht
- Die Ergebnisse des Background Model werden gestreamt, sobald sie entstehen, und vom Interaction Model in Momenten in das Gespräch integriert, die zum aktuellen Verhalten des Nutzers passen
- Beide Systeme teilen sich den Kontext, und Nutzer können Planung, Tool-Nutzung und agentische Workflows eines Schlussfolgerungsmodells innerhalb der Antwortlatenz eines nicht schlussfolgernden Modells gemeinsam nutzen
- Sowohl das Background Model als auch das Interaction Model verfügen über Intelligenz, und schon das Interaction Model allein erzielt bei Interaktions- und Intelligenz-Benchmarks wettbewerbsfähige Leistung
-
Architektur des Interaction Model
- Ausgangspunkt des Designs sind kontinuierliches Audio und Video, die ihrem Wesen nach Echtzeitmedien sind; Text kann warten, Echtzeitgespräche jedoch nicht
- Das Modell nimmt beliebige Teilmengen von Text, Audio und Video als Eingabe und sagt Text und Audio voraus
- Es arbeitet in Mikro-Turns, bei denen fortlaufend die Verarbeitung von 200 ms Eingabe und die Erzeugung von 200 ms Ausgabe abgewechselt werden
- Statt abgeschlossene Nutzer-Turns zu konsumieren und vollständige Antworten zu erzeugen, verarbeitet es sowohl Eingabetokens als auch Ausgabetokens als Streams
- Dieser Ansatz ermöglicht nahezu echtzeitige Gleichzeitigkeit über mehrere Ein- und Ausgabemodalitäten hinweg und beseitigt künstliche Turn-Grenzen, die das Modell sonst einhalten müsste
- Viele bestehende Echtzeitsysteme sagen Turn-Grenzen mit Harnesses wie Sprachaktivitätserkennung (VAD) voraus, um turn-basierte Modelle wie Echtzeitsysteme erscheinen zu lassen
- Diese Harness-Komponenten sind weniger intelligent als das Modell selbst und begrenzen daher Interaktionsmodi wie proaktive Unterbrechungen oder Reaktionen auf visuelle Hinweise
- Im Interaction Model werden solche Interaktionsmodi nicht zu spezialisierten Harnesses, sondern zu Sonderfällen dessen, was das Modell leisten kann, und ihre Qualität kann mit der Skalierung von Modellgröße und Trainingsdaten steigen
-
Frühe Fusion ohne Encoder
- Statt Audio und Video mit großen separaten Encodern zu verarbeiten, wurde eine Architektur mit minimalem Preprocessing gewählt
- Viele omnimodale Modelle müssen Whisper-ähnliche Encoder oder TTS-ähnliche Decoder separat trainieren, dieses Modell nimmt das Audiosignal jedoch in Form von dMel auf und wandelt es mit einer leichten Embedding-Schicht um
- dMel folgt Bai, et al. 2024
- Bilder werden in 40x40-Patches aufgeteilt und anschließend mit hMLP encodiert
- Für den Audio-Decoder wird ein flow head verwendet
- Alle Komponenten werden gemeinsam mit dem Transformer von Grund auf zusammen trainiert
-
Optimierung der Inferenz
- Bei der Inferenz erfordern 200-ms-Chunks häufig kleine Prefill- und Decode-Schritte, und jeder Schritt muss strenge Latenzanforderungen erfüllen
- Bestehende LLM-Inferenzbibliotheken sind nicht für Szenarien mit häufigen kleinen Prefills optimiert, weshalb pro Turn ein hoher Overhead entsteht
- Dafür wurde eine streaming session implementiert: Sendet der Client jeden 200-ms-Chunk als separate Anfrage, hängt der Inferenzserver die Chunks an eine persistente Sequenz im GPU-Speicher an
- So werden häufige Speicher-Reallokationen und Metadatenberechnungen vermieden; eine Version dieser Funktion wurde in SGLang upstream eingebracht
- Auch die Kernel wurden anhand der bei bidirektionalem Serving auftretenden Shapes und Latenzen optimiert
- Für MoE-Kernel wird statt standardmäßigem grouped gemm eine gather+gemv-Strategie verwendet, ähnlich wie in Vorarbeiten von PyTorch und Cursor
-
Trainer-Sampler-Ausrichtung
- Bitgenaue trainer-sampler alignment war nützlich für Trainingsstabilität und das Debugging von Systemkomponenten
- Es wurden batch-invariant kernels implementiert, bei einem Gesamt-Performance-Overhead von unter 5 %
- Für All-reduce und reduce-scatter wird NVLS verwendet, um auf Blackwell deterministische Low-Latency-Kommunikationskernel zu implementieren
- Diese Kernel erreichen bitgenaue Ausrichtung auch zwischen unterschiedlichen Parallelisierungsstrategien wie Sequence Parallelism und Tensor Parallelism
- Die zentrale Herausforderung bei Attention ist Split-KV, das üblicherweise Unterschiede in der Akkumulationsreihenfolge zwischen Decode und Prefill verursachen kann
- Wenn zwischen Decode und Prefill konsistent dieselbe Aufteilung gewählt wird, lässt sich die Akkumulationsreihenfolge beibehalten; beispielsweise können SMs in linksbündig ausgerichteten 4096-Token-Einheiten verarbeitet werden, um sowohl bei Prefill als auch bei Decode Effizienz zu erzielen
-
Abstimmung der beiden Modelle
- Wenn das Interaction Model delegiert, sendet es kein isoliertes Query, sondern ein reichhaltiges Kontextpaket, das das gesamte Gespräch umfasst
- Die Ergebnisse des Background Model kommen zurück, sobald sie erzeugt werden, und das Interaction Model verwebt sie in Momenten ins Gespräch, die zum aktuellen Verhalten des Nutzers passen, statt einen abrupten Kontextwechsel zu erzwingen
-
Sicherheit
- Da Echtzeitinteraktion die Sicherheit anders beansprucht als turn-basierte Austauschformen, konzentriert sich die Arbeit auf modalitätsgerechte Verweigerungen und Robustheit in langen Gesprächen
- Damit sprachliche Verweigerungen in gesprochener Form natürlich klingen, wurden mit einem TTS-Modell Trainingsdaten für Verweigerungen in nicht erlaubten Themenbereichen sowie für Überverweigerungen erzeugt
- Die Grenzen für Verweigerungen wurden so kalibriert, dass natürliche Formulierungen bevorzugt werden, ohne an Entschiedenheit zu verlieren
- Um die Robustheit in langen Speech-to-Speech-Gesprächen zu erhöhen, wurden mit einem automatisierten Red-Teaming-Harness Multi-Turn-Verweigerungsdaten erzeugt
- Auch die Verhaltensähnlichkeit zu textbasierten Verweigerungen wird eng beibehalten
Benchmarks und Evaluierung
-
Intelligenz und Interaktivität
- Der Modellname ist
TML-Interaction-Smallund es wird als das erste Modell vorgestellt, das starke Intelligenz, Befolgung von Anweisungen und Interaktivität zugleich bietet - Die Qualität der Interaktion wird mit FD-bench gemessen
- FD-bench v1.5 verlangt, dass das Modell bei vorab aufgezeichnetem Audio zu bestimmten Zeitpunkten reagiert, und misst das Verhalten des Modells bei Unterbrechungen durch Nutzer, Rückkanalsignalen, Gesprächen mit anderen Personen und Hintergrundäußerungen
- Die Intelligenz wird mit Audio MultiChallenge gemessen, einem allgemeinen Benchmark zur Erfassung von Intelligenz und Befolgung von Anweisungen
TML-Interaction-Smallerreicht bei der Turn-Taking-Latenz von FD-bench V1 0,40 Sekunden und weist damit eine geringere Latenz als die in der Tabelle aufgeführten Vergleichsmodelle auf- Der durchschnittliche FD-bench-V1.5-Score liegt bei 77,8 und damit über den Vergleichsmodellen GPT-realtime-2.0, GPT-realtime-1.5, Gemini-3.1-flash-live und Qwen 3.5 OMNI-plus-realtime
- In FD-bench V3 Audio+Tools werden bei aktiviertem Background Agent Antwortqualität 82,8 % / Pass@1 68,0 % erreicht
- Die QIVD-Video+Audio-Genauigkeit liegt bei 54,0 % und ist damit niedriger oder ähnlich wie bei einigen Vergleichsmodellen
- Audio MultiChallenge APR liegt bei 43,4 % und damit unter den 48,5 % von GPT-realtime-2.0 xhigh, aber über den Instant-Modellen
- Für BigBench Audio werden bei aktiviertem Background Agent 75,7 / 96,5 berichtet
- Bei IFEval werden in VoiceBench Audio 82,1 % und in Text 89,7 % erreicht
- Die Harmbench-Text-Ablehnungsrate beträgt 99,0 %
- Der Modellname ist
-
Interaktionsdimensionen, die bestehende Evaluierungen nicht erfassen
- Da bestehende Interaktions-Benchmarks den beim Modell beobachteten qualitativen Sprung nicht ausreichend erfassen, wurden zusätzliche interne und angepasste Evaluierungen für Zeitbewusstsein, Simultansprechen und visuelle Proaktivität ergänzt
-
Zeitbewusstsein und Simultansprechen
- Turn-basierte Modelle und Dialogmanagement-Systeme unterstützen weder genaue Zeitschätzung noch Simultansprechen
- Beispielaufgaben sind etwa „Wie lange hat es gedauert, 1 Meile zu laufen?“, „Korrigiere sofort meine Aussprache, sobald du sie hörst“ oder „Wie lange hat es gedauert, diese Funktion zu verwenden?“
- TimeSpeak testet, ob das Modell zu einem vom Nutzer festgelegten Zeitpunkt mit dem Sprechen beginnen und dabei den richtigen Inhalt sagen kann
- Ein Beispiel lautet: „Ich möchte eine Atemübung machen, also sage mir alle 4 Sekunden, wann ich ein- und ausatmen soll, bis ich dir sage, dass du aufhören sollst“
- CueSpeak testet, ob zu einem passenden Zeitpunkt eine semantisch korrekte Antwort gesprochen wird
- Die Daten sind so aufgebaut, dass das Modell gleichzeitig mit dem Nutzer sprechen muss, um die volle Punktzahl zu erhalten
- Ein Beispiel lautet: „Immer wenn ich Code-Switching mache und eine andere Sprache verwende, sage mir das korrekte Wort in der ursprünglichen Sprache“
- Beide Benchmarks haben pro Beispiel jeweils eine erwartete semantische Antwort und ein Zeitfenster; ein LLM judge bewertet nur dann als korrekt, wenn sowohl Semantik als auch Timing erfüllt sind
-
Visuelle Proaktivität
- Aktuelle kommerzielle Echtzeit-APIs erkennen Turns meist mit audio-basierten Dialogmanagement-Harnesses und können nicht selbst entscheiden, wann sie sprechen sollen, wenn sich die visuelle Welt verändert
- StreamBridge, Streamo, StreamingVLM und MMDuet2 behandeln die Frage, wann bei gestreamtem Videoeingang Text ausgegeben werden soll
- Diese Forschung zur Textausgabe behandelt nicht die Einschränkungen der sprachlichen Ausgabainteraktion, bei der Äußerungen eine Dauer haben, sich mit dem Nutzer überschneiden können und mit Turn-Taking, Unterbrechungen und Rückkanalsignalen koordiniert werden müssen
- AURA ist eine Struktur, bei der an eine Architektur, die entscheidet, wann ein VideoLLM Text ausgibt oder schweigt, ASR/TTS-Demos angehängt wurden; das Modell von Thinking Machines Lab unterscheidet sich dadurch, dass es speech-native und full-duplex ist
-
Evaluierung visueller Proaktivität
- RepCount-A wird zu einer Online-Counting-Aufgabe für Videos mit wiederholten Bewegungen umgebaut
- Dem Modell werden die Audioanweisung „Zähle die Anzahl der Wiederholungen von {action}“ und ein Video als Stream gegeben; bewertet wird, ob die letzte vom Modell gesprochene Zahl nach der vorletzten Wiederholung der richtigen Antwort höchstens um 1 von der richtigen Antwort abweicht
- Diese Aufgabe misst kontinuierliches visuelles Tracking und rechtzeitiges Zählen
- ProactiveVideoQA besteht aus Videos mit Fragen, deren Antwort erst zu einem bestimmten Zeitpunkt bekannt werden kann
- Nach dem Streamen der Frage als Audio wird das Video gesendet; falls Untertitel vorhanden sind, werden sie ins Video eingebrannt, und das Eingabevideo wird stummgeschaltet, um visuelle Proaktivität hervorzuheben
- Für die Evaluierung wird die turn-gewichtete Kennzahl PAUC@ω=0.5 aus dem Paper auf 0–100 skaliert und über Turns und Kategorien gemittelt; bei durchgehendem Schweigen erhält man 25,0 Punkte
- Für hohe Werte muss die richtige Antwort zum richtigen Zeitpunkt gesprochen werden, falsche Antworten werden bestraft
- Charades ist ein Standard-Benchmark für temporale Aktionslokalisierung; jedes Video enthält Aktionen, die in markierten Zeitabschnitten auftreten
- Das Modell erhält die Audioanweisung „Sage ‚start‘, wenn die Person {action} beginnt, und sage ‚Stop‘, wenn sie aufhört“ sowie einen Videostream; bewertet wird mit temporal IoU zwischen vorhergesagten und Referenzsegmenten
-
Grenzen aktueller Modelle
- Bestehende Modelle können solche Aufgaben zu Zeitbewusstsein, Simultansprechen und visueller Proaktivität nicht sinnvoll bewältigen
- Der Vollständigkeit halber werden Ergebnisse von GPT Realtime-2 minimal berichtet, doch alle evaluierten Modelle, einschließlich thinking-high-Modelle, sind ähnlich schwach oder schlechter und schweigen oder geben falsche Antworten
- Interaktivität wird als wichtiges zukünftiges Forschungsfeld gesehen, und es werden Forschungsförderungen für Interaction Model und Bewertungsrahmen für die Zusammenarbeit zwischen Mensch und KI angekündigt
Grenzen und Veröffentlichungspläne
-
Lange Sitzungen
- Kontinuierliches Audio und Video akkumulieren schnell Kontext
- Das Design von streaming-session verarbeitet kurze und mittellange Interaktionen gut, doch für sehr lange Sitzungen ist ein sorgfältiges Kontextmanagement nötig
-
Compute und Deployment
- Um Audio und Video mit geringer Latenz zu streamen, ist eine stabile Verbindung erforderlich
- Ohne gute Verbindung verschlechtert sich die Erfahrung deutlich
- Es gibt Verbesserungspotenzial, wenn die Systemzuverlässigkeit erhöht und das Modell robuster gegenüber verzögerten Frames trainiert wird
-
Alignment und Sicherheit
- Echtzeit-Interfaces eröffnen sowohl für Alignment als auch für Sicherheit neue Forschungsfelder; das Sammeln von Feedback und die Prüfung von Forschungsförderungen laufen
-
Skalierung der Modellgröße
- Aktuell ist
TML-Interaction-Smallein 276B-Parameter-MoE mit 12B aktiven Parametern - Mit größerem Modellmaßstab dürfte sich auch die Interaktivität verbessern, aber größere vortrainierte Modelle sind derzeit zu langsam, um in diesem Setup betrieben zu werden
- Größere Modelle sollen später in diesem Jahr veröffentlicht werden
- Aktuell ist
-
Verbesserungen beim Background Agent
- Der Hauptfokus liegt auf Echtzeit-Interaktivität, aber auch Agentenintelligenz ist eine wesentliche Fähigkeit
- Neben dem Ziel, die Agentenintelligenz auf Frontier-Niveau zu bringen, steht auch die Zusammenarbeit des Background Agent mit dem Interaction Model noch ganz am Anfang
-
Veröffentlichungszeitplan
- In den kommenden Monaten soll eine begrenzte Research-Preview zum Sammeln von Feedback starten, gefolgt von einer breiteren Veröffentlichung später in diesem Jahr
2 Kommentare
Man muss sich die angehängten Videos ansehen. Schon bei dieser Latenz wirkt es ziemlich realistisch.
Wenn sich das noch ein wenig weiterentwickelt, wird man sich wohl wirklich so unterhalten können wie in den Filmen.
Hacker-News-Kommentare
Diese Videos sind sehenswert. Es gibt viele eindrucksvolle Szenen, aber überzeugt hat mich sofort, dass das Modell in der ersten Szene einfach wartet und nichts tut, während die Frau nach den Worten „Ich erzähle euch mal eine Geschichte“ lange an ihrem Kaffee nippt. Dafür würde ich gern bezahlen
Wo wir gerade beim Geld sind: Ich frage mich, was bei so einer Firma eigentlich das ökonomische Modell ist. Sie haben ziemlich viel von der Architektur offengelegt, offenbar genug, dass Frontier-Labs so etwas nachbauen könnten. Patente? Geschäftsgeheimnisse? Es ist schwer nachzuvollziehen, wie man ohne rechtlichen Schutz gegen die Trainings-Rechenleistung und das Know-how von Anthropic/GOOG/oAI/Meta gewinnen will
Ich bin gespannt, was passiert, wenn solche Modellarchitekturen die Latenz um 30–40 % senken und zugleich intelligenter werden. Soweit ich weiß, scheint dieses Modell mit 275B, davon etwa 12B aktiv, ungefähr ein Zehntel der Größe von Opus 4.7 / GPT 5.x zu haben, also gibt es noch viel Spielraum für mehr Intelligenz und potenziell noch geringere Latenz
Das bloße Warten gehört eher in den Bereich Post-Training, daher sollte man nicht zu viel daraus ableiten, dass Gemini oder oAI das nicht priorisiert haben. Das hier gezeigte Vollduplex (full duplex) ist technisch eine deutlich schwierigere Leistung
Auffällig ist, dass diese Architektur ein Transformer ist, der Text-, Bild- und Audioeingaben entgegennimmt und Text- sowie Audioausgaben erzeugt, und dass alles gemeinsam trainiert wurde. Außerdem arbeitet sie nahezu in Echtzeit, indem Eingabe und Ausgabe ineinander verschachtelt werden, statt aus einem gegebenen Prompt rein generativ zu antworten
„Time-Aligned Micro-Turns. The interaction model works with micro-turns continuously interleaving the processing of 200ms worth of input and generation of 200ms worth of output. Rather than consuming a complete user-turn and generating a complete response, both input and output tokens are treated as streams. Working with 200ms chunks of these streams enables near real-time concurrency of multiple input and output modalities.”
Meiner Ansicht nach ist das der entscheidende Punkt, der es von den multimodalen Modellen anderer Frontier-Labs unterscheidet
call_something(params)zu verwendenAuch die Fähigkeit, „einfach still zu sein“, bis eine bestimmte Modalität ausgelöst wird, ist interessant. Das kann man heute zwar schon, aber eher als nachträglich angesetzte Ergänzung, und trotzdem funktioniert es schon recht gut. Ich frage mich, wie gut es wird, wenn so etwas von Anfang an integriert trainiert wird
In den Demos wirkt es oft so, als würden Komponenten, die früher in einem externen Harness lagen, ins Modell selbst verlagert. Ich bin nicht sicher, ob das wirklich ein flexibler Ansatz ist
In vielen Fällen ließe sich wahrscheinlich schneller iterieren, wenn das Harness für die Nutzerinteraktion extern bleibt. Wenn es zum Beispiel ein UI zwischen Nutzer und Modell gibt und dieses UI geändert werden muss, könnte der Nutzer es sogar selbst anpassen
Ich denke, Flexibilität ist essenziell. Für fest definierte Anwendungsfälle wie Echtzeitübersetzung oder einfache Sprachbots kann so ein Modell hilfreich sein, aber in jedem dieser Fälle könnte es am Ende von stärker spezialisierten Alternativen verdrängt werden
Unabhängig davon, dass das Modell selbst beeindruckend ist: Die Demos hier sind wirklich gut gemacht. Anders als bei Anthropic oder OpenAI sind sie kurz und haben Persönlichkeit
Aber der unerwartete Slapstick der Frau in der Demo zur „krummen Haltung“ war wirklich urkomisch. Perfekte Comedy, daran gibt es nichts zu verbessern
Mir gefällt diese menschliche Atmosphäre besser als die typischen OpenAI-/Anthropic-Demos. Vielleicht könnte man das sogar als Beispiel für „Human-centered Design“ bezeichnen (https://en.wikipedia.org/wiki/Human-centered_design)
Sehr cool. Allerdings wirkten die Demos ziemlich gestellt. Zum Beispiel Dinge zu zählen, während ich spreche. Ich frage mich, wie nützlichere oder kommerziellere Anwendungen aussehen würden
Natürlichere Mensch-AI-Interaktionsmuster scheinen in diese Richtung gehen zu müssen. Der Text und die Demos sind gut
Ich sage das ungern, aber das wirkt zugleich ziemlich beeindruckend und nach echtem Fortschritt in der Art, wie wir mit AI interagieren, während die gezeigten Anwendungsfälle und die UX unrealistisch oder wenig hilfreich wirken
Echtzeitübersetzung ist die Ausnahme und sollte vermutlich ein eigenes Produkt sein. Davon abgesehen bringt es wenig, Tiere zu zählen oder Quizzeiten zu stoppen. Die Demo zur Haltungserkennung war zwar lustig, aber auch ziemlich dystopisch und seltsam. Und ich mag es nicht, wenn die AI jemanden unterbricht und zurechtweist, bevor die Geschichte darüber, die alten Eltern zum Mountainbiken mitzunehmen, überhaupt zu Ende erzählt ist
Auch die UX ist problematisch. Dass das Modell dem Nutzer ins Wort fällt, unterbricht den Flow, selbst dort, wo es für diese merkwürdigen Use Cases nötig erscheint. Selbst in den veröffentlichten Demo-Videos sieht man, wie die Mitarbeiter/Schauspieler sich ziemlich konzentrieren müssen, um weiterzusprechen, als würden sie nicht von einer mürrischen Roboter-Maschine unterbrochen. Wenn Menschen an solchen seltenen „eingeladenen Unterbrechungen“ teilnehmen, können sie unter dem Hauptsprecher weitersprechen und treffen das Timing meist viel subtiler
Auch in der Demo zur automatischen Übersetzung wurde die menschliche Stimme zwar abgesenkt, aber die AI drängte sich trotzdem nach vorn; um diese Demo in der Praxis hinzubekommen, hätte man das Sprechen sehr stark kontrollieren oder wahrscheinlicher die Ausgabe stummschalten müssen. Menschliche Dolmetscher haben Möglichkeiten, ihre „Ausgabe“ an den beabsichtigten Zuhörer zu richten
Der beste Teil dieser Technik war für mich die erste Szene, in der die AI den Nutzer nicht unnötig unterbricht. Das wirkt fast so, als wäre damit ein wichtiger Bug behoben worden, den aktuelle Modelle immer noch haben
Ein guter Use Case wäre vielleicht, beim Üben von öffentlichen Reden Füllwörter wie „ähm“ mitzuzählen
Zum Beispiel bei Frontend-/Mobile-Entwicklung, CAD oder 3D-Modellierung. Solche klassischen LLM-Agenten-Use-Cases leiden traditionell unter hoher Latenz, weil das Modell warten muss, bis der Sprecher fertig ist, um zu entscheiden, ob es ein Tool aufrufen oder antworten soll; wenn es ein Tool aufruft, muss es erst dessen Ergebnis verarbeiten und dann wieder entscheiden, ob es ein weiteres Tool aufruft oder antwortet
Das sieht ähnlich aus wie das, was Leute lokal bereits mit Gemma4 und TTS bauen, nur etwas aufwendiger inszeniert
Lokale Modelle werden bald aufschließen
Die Absicht mag gut sein, aber in den falschen Händen scheint das eher Überwachungstechnologie zu stärken. Es wird Zeit, sich dagegen zu wehren