Interaction Models – ein skalierbarer Ansatz für die Zusammenarbeit zwischen Mensch und KI

(thinkingmachines.ai)

4 Punkte von GN⁺ 4 시간 전 | 2 Kommentare | Auf WhatsApp teilen

Kein externes Harness, sondern das Modell selbst verarbeitet Audio, Video und Text gleichzeitig in Echtzeit als Ein- und Ausgabe und arbeitet so natürlich mit Menschen zusammen
Bestehende turnbasierte Modelle hatten einen Kollaborations-Engpass, weil sie warten, bis der Nutzer zu Ende gesprochen hat, und während der Generierung keine neuen Eingaben annehmen können
Durch ein Microturn-Design in 200-ms-Einheiten werden Ein- und Ausgabe als kontinuierliche Streams verarbeitet, wodurch verschiedene Interaktionsmodi wie Unterbrechen, gleichzeitiges Sprechen und visuelle Reaktionen unterstützt werden
Das System teilt Kontext zwischen einem Interaction Model für Echtzeitgespräche und einem Background Model für langfristiges Schlussfolgern und den Einsatz von Tools
Da die Interaktivität im Modell selbst eingebaut ist, wird es mit dem Skalieren nicht nur intelligenter, sondern zugleich auch zu einem besseren Kollaborationspartner

Der Kollaborations-Engpass und das Ziel des Interaction Model

Thinking Machines Lab hat eine Research Preview des Interaction Model vorgestellt, bei dem nicht ein externes Harness, sondern das Modell selbst die Interaktion verarbeitet
Ziel ist, nicht nur die Intelligenz von KI, sondern auch ihre Interaktivität gemeinsam zu skalieren; das Modell nimmt Audio, Video und Text fortlaufend auf und denkt, antwortet und handelt in Echtzeit
Viele aktuelle KI-Forschungsvorhaben und Interfaces betonen die Fähigkeit von KI, lange autonom zu arbeiten, doch bei hands-on-keyboard-Arbeit mit fortlaufender menschlicher Beteiligung kann sich das Modell zu langsam anfühlen, sodass sein Nutzen weniger deutlich wird
- Nicht dafür optimiert, den Menschen im Loop zu halten
In der Praxis ist es schwierig, Anforderungen von Anfang an vollständig zu spezifizieren und sich dann zurückzuziehen; ein kollaborativer Prozess, in dem Menschen zwischendurch Präzisierungen und Feedback geben, führt zu besseren Ergebnissen
Herkömmliche turnbasierte Modelle warten, bis der Nutzer seine Eingabe beendet hat, und können während der Generierung keine neuen Informationen aufnehmen, sodass sie die Realität wie ein Single-Thread erleben
- Diese Struktur begrenzt sowohl, wie viel Wissen, Absicht und Urteilskraft des Nutzers an das Modell übermittelt werden, als auch, wie viel der Mensch von der Arbeit des Modells versteht
Thinking Machines Lab ist der Ansicht, dass zur Auflösung dieses Engpasses Echtzeitinteraktion über alle Modalitäten hinweg möglich sein muss und dass sich KI an die Arbeitsweise des Menschen anpassen sollte statt umgekehrt
Die meisten bestehenden KI-Modelle verwenden Harnesses, die mehrere Komponenten zusammenfügen, um Unterbrechungen, Multimodalität und Gleichzeitigkeit nachzuahmen; laut The Bitter Lesson könnten handgebaute Systeme beim Ausbau allgemeiner Fähigkeiten jedoch ins Hintertreffen geraten
Damit Interaktivität zusammen mit Intelligenz skaliert, muss sie eine interne Funktion des Modells sein; wenn das Modell wächst, sollte es nicht nur intelligenter werden, sondern auch ein besserer Kollaborationspartner

Funktionen, die durch modellinterne Interaktion möglich werden

Natürliches Gesprächsmanagement
- Das Modell verfolgt implizit, ob ein Sprecher noch nachdenkt, das Wort übergibt, sich selbst korrigiert oder eine Antwort hervorruft
- Es trifft diese Entscheidungen ohne separate Gesprächsmanagement-Komponente
Sprach- und visuell basierte Eingriffe (Unterbrechen)
- Das Modell reagiert nicht nur dann, wenn der Nutzer fertig gesprochen hat, sondern kann je nach Kontext im richtigen Moment unterbrechen
- So kann es etwa dazwischengehen, wenn der Nutzer etwas Falsches sagt, oder anhand visueller Hinweise erkennen und melden, dass in Code ein Bug geschrieben wurde
Gleichzeitiges Sprechen
- Nutzer und Modell können gleichzeitig sprechen, was in Situationen wie Echtzeitübersetzung nützlich ist
Zeitbewusstsein
- Das Modell nimmt verstrichene Zeit direkt wahr und kann Aufgaben bearbeiten, bei denen es in bestimmten Zeitabständen sprechen oder die Handlungsdauer des Nutzers messen muss
Gleichzeitige Ausführung von Tool-Aufrufen, Suche und generativer UI
- Das Modell kann während des Sprechens und Zuhörens mit dem Nutzer gleichzeitig Suchen, Web-Browsing und UI-Generierung ausführen
- Sobald Ergebnisse bereit sind, fügt es sie passend zum Gesprächsfluss wieder ein
- In langen realen Sitzungen laufen solche Funktionen fortwährend zusammen ab, sodass es sich eher nach Zusammenarbeit anfühlt als nach dem Absenden eines Prompts

Ansatz

Zeitlich ausgerichtete Mikro-Turns
- Das Interaction Model unterteilt kontinuierliche Eingabe- und Ausgabeströme in Mikro-Turns und strukturiert die Interaktion entlang der Zeit
- Turn-basierte Modelle sehen abwechselnde Tokensequenzen, während ein zeitbewusstes Interaction Model einen kontinuierlichen Mikro-Turn-Stream sieht, sodass Stille, Überlappungen und Unterbrechungen im Modellkontext erhalten bleiben
- Das Modell hält einen Zustand des fortlaufenden bidirektionalen Austauschs mit dem Nutzer aufrecht und führt Wahrnehmung und Reaktion gleichzeitig aus
- Robotik und autonomes Fahren setzen aufgrund der Anforderungen der physischen Welt Echtzeitverhalten voraus, und Audio-Full-Duplex-Modelle wie Moshi, PersonaPlex, nemotron-voicechat und Seeduplex sind ebenfalls Beispiele für bidirektionale, kontinuierliche Interaktion
Systemaufbau
- Das System besteht aus einem zeitbewussten Interaction Model, das Echtzeitpräsenz aufrechterhält, und einem asynchronen Background Model, das kontinuierliches Schlussfolgern, Tool-Nutzung und langfristige Aufgaben übernimmt
- Wenn tiefergehendes Schlussfolgern nicht sofort erzeugt werden kann, delegiert das Interaction Model an das Background Model
- Auch während der Delegation bleibt das Interaction Model weiter beim Nutzer, beantwortet Rückfragen, nimmt neue Eingaben entgegen und hält den Gesprächskontext aufrecht
- Die Ergebnisse des Background Model werden gestreamt, sobald sie entstehen, und vom Interaction Model in Momenten in das Gespräch integriert, die zum aktuellen Verhalten des Nutzers passen
- Beide Systeme teilen sich den Kontext, und Nutzer können Planung, Tool-Nutzung und agentische Workflows eines Schlussfolgerungsmodells innerhalb der Antwortlatenz eines nicht schlussfolgernden Modells gemeinsam nutzen
- Sowohl das Background Model als auch das Interaction Model verfügen über Intelligenz, und schon das Interaction Model allein erzielt bei Interaktions- und Intelligenz-Benchmarks wettbewerbsfähige Leistung
Architektur des Interaction Model
- Ausgangspunkt des Designs sind kontinuierliches Audio und Video, die ihrem Wesen nach Echtzeitmedien sind; Text kann warten, Echtzeitgespräche jedoch nicht
- Das Modell nimmt beliebige Teilmengen von Text, Audio und Video als Eingabe und sagt Text und Audio voraus
- Es arbeitet in Mikro-Turns, bei denen fortlaufend die Verarbeitung von 200 ms Eingabe und die Erzeugung von 200 ms Ausgabe abgewechselt werden
- Statt abgeschlossene Nutzer-Turns zu konsumieren und vollständige Antworten zu erzeugen, verarbeitet es sowohl Eingabetokens als auch Ausgabetokens als Streams
- Dieser Ansatz ermöglicht nahezu echtzeitige Gleichzeitigkeit über mehrere Ein- und Ausgabemodalitäten hinweg und beseitigt künstliche Turn-Grenzen, die das Modell sonst einhalten müsste
- Viele bestehende Echtzeitsysteme sagen Turn-Grenzen mit Harnesses wie Sprachaktivitätserkennung (VAD) voraus, um turn-basierte Modelle wie Echtzeitsysteme erscheinen zu lassen
- Diese Harness-Komponenten sind weniger intelligent als das Modell selbst und begrenzen daher Interaktionsmodi wie proaktive Unterbrechungen oder Reaktionen auf visuelle Hinweise
- Im Interaction Model werden solche Interaktionsmodi nicht zu spezialisierten Harnesses, sondern zu Sonderfällen dessen, was das Modell leisten kann, und ihre Qualität kann mit der Skalierung von Modellgröße und Trainingsdaten steigen
Frühe Fusion ohne Encoder
- Statt Audio und Video mit großen separaten Encodern zu verarbeiten, wurde eine Architektur mit minimalem Preprocessing gewählt
- Viele omnimodale Modelle müssen Whisper-ähnliche Encoder oder TTS-ähnliche Decoder separat trainieren, dieses Modell nimmt das Audiosignal jedoch in Form von dMel auf und wandelt es mit einer leichten Embedding-Schicht um
- dMel folgt Bai, et al. 2024
- Bilder werden in 40x40-Patches aufgeteilt und anschließend mit hMLP encodiert
- Für den Audio-Decoder wird ein flow head verwendet
- Alle Komponenten werden gemeinsam mit dem Transformer von Grund auf zusammen trainiert
Optimierung der Inferenz
- Bei der Inferenz erfordern 200-ms-Chunks häufig kleine Prefill- und Decode-Schritte, und jeder Schritt muss strenge Latenzanforderungen erfüllen
- Bestehende LLM-Inferenzbibliotheken sind nicht für Szenarien mit häufigen kleinen Prefills optimiert, weshalb pro Turn ein hoher Overhead entsteht
- Dafür wurde eine streaming session implementiert: Sendet der Client jeden 200-ms-Chunk als separate Anfrage, hängt der Inferenzserver die Chunks an eine persistente Sequenz im GPU-Speicher an
- So werden häufige Speicher-Reallokationen und Metadatenberechnungen vermieden; eine Version dieser Funktion wurde in SGLang upstream eingebracht
- Auch die Kernel wurden anhand der bei bidirektionalem Serving auftretenden Shapes und Latenzen optimiert
- Für MoE-Kernel wird statt standardmäßigem grouped gemm eine gather+gemv-Strategie verwendet, ähnlich wie in Vorarbeiten von PyTorch und Cursor
Trainer-Sampler-Ausrichtung
- Bitgenaue trainer-sampler alignment war nützlich für Trainingsstabilität und das Debugging von Systemkomponenten
- Es wurden batch-invariant kernels implementiert, bei einem Gesamt-Performance-Overhead von unter 5 %
- Für All-reduce und reduce-scatter wird NVLS verwendet, um auf Blackwell deterministische Low-Latency-Kommunikationskernel zu implementieren
- Diese Kernel erreichen bitgenaue Ausrichtung auch zwischen unterschiedlichen Parallelisierungsstrategien wie Sequence Parallelism und Tensor Parallelism
- Die zentrale Herausforderung bei Attention ist Split-KV, das üblicherweise Unterschiede in der Akkumulationsreihenfolge zwischen Decode und Prefill verursachen kann
- Wenn zwischen Decode und Prefill konsistent dieselbe Aufteilung gewählt wird, lässt sich die Akkumulationsreihenfolge beibehalten; beispielsweise können SMs in linksbündig ausgerichteten 4096-Token-Einheiten verarbeitet werden, um sowohl bei Prefill als auch bei Decode Effizienz zu erzielen
Abstimmung der beiden Modelle
- Wenn das Interaction Model delegiert, sendet es kein isoliertes Query, sondern ein reichhaltiges Kontextpaket, das das gesamte Gespräch umfasst
- Die Ergebnisse des Background Model kommen zurück, sobald sie erzeugt werden, und das Interaction Model verwebt sie in Momenten ins Gespräch, die zum aktuellen Verhalten des Nutzers passen, statt einen abrupten Kontextwechsel zu erzwingen
Sicherheit
- Da Echtzeitinteraktion die Sicherheit anders beansprucht als turn-basierte Austauschformen, konzentriert sich die Arbeit auf modalitätsgerechte Verweigerungen und Robustheit in langen Gesprächen
- Damit sprachliche Verweigerungen in gesprochener Form natürlich klingen, wurden mit einem TTS-Modell Trainingsdaten für Verweigerungen in nicht erlaubten Themenbereichen sowie für Überverweigerungen erzeugt
- Die Grenzen für Verweigerungen wurden so kalibriert, dass natürliche Formulierungen bevorzugt werden, ohne an Entschiedenheit zu verlieren
- Um die Robustheit in langen Speech-to-Speech-Gesprächen zu erhöhen, wurden mit einem automatisierten Red-Teaming-Harness Multi-Turn-Verweigerungsdaten erzeugt
- Auch die Verhaltensähnlichkeit zu textbasierten Verweigerungen wird eng beibehalten

Benchmarks und Evaluierung

Intelligenz und Interaktivität
- Der Modellname ist TML-Interaction-Small und es wird als das erste Modell vorgestellt, das starke Intelligenz, Befolgung von Anweisungen und Interaktivität zugleich bietet
- Die Qualität der Interaktion wird mit FD-bench gemessen
- FD-bench v1.5 verlangt, dass das Modell bei vorab aufgezeichnetem Audio zu bestimmten Zeitpunkten reagiert, und misst das Verhalten des Modells bei Unterbrechungen durch Nutzer, Rückkanalsignalen, Gesprächen mit anderen Personen und Hintergrundäußerungen
- Die Intelligenz wird mit Audio MultiChallenge gemessen, einem allgemeinen Benchmark zur Erfassung von Intelligenz und Befolgung von Anweisungen
- TML-Interaction-Small erreicht bei der Turn-Taking-Latenz von FD-bench V1 0,40 Sekunden und weist damit eine geringere Latenz als die in der Tabelle aufgeführten Vergleichsmodelle auf
- Der durchschnittliche FD-bench-V1.5-Score liegt bei 77,8 und damit über den Vergleichsmodellen GPT-realtime-2.0, GPT-realtime-1.5, Gemini-3.1-flash-live und Qwen 3.5 OMNI-plus-realtime
- In FD-bench V3 Audio+Tools werden bei aktiviertem Background Agent Antwortqualität 82,8 % / Pass@1 68,0 % erreicht
- Die QIVD-Video+Audio-Genauigkeit liegt bei 54,0 % und ist damit niedriger oder ähnlich wie bei einigen Vergleichsmodellen
- Audio MultiChallenge APR liegt bei 43,4 % und damit unter den 48,5 % von GPT-realtime-2.0 xhigh, aber über den Instant-Modellen
- Für BigBench Audio werden bei aktiviertem Background Agent 75,7 / 96,5 berichtet
- Bei IFEval werden in VoiceBench Audio 82,1 % und in Text 89,7 % erreicht
- Die Harmbench-Text-Ablehnungsrate beträgt 99,0 %
Interaktionsdimensionen, die bestehende Evaluierungen nicht erfassen
- Da bestehende Interaktions-Benchmarks den beim Modell beobachteten qualitativen Sprung nicht ausreichend erfassen, wurden zusätzliche interne und angepasste Evaluierungen für Zeitbewusstsein, Simultansprechen und visuelle Proaktivität ergänzt
Zeitbewusstsein und Simultansprechen
- Turn-basierte Modelle und Dialogmanagement-Systeme unterstützen weder genaue Zeitschätzung noch Simultansprechen
- Beispielaufgaben sind etwa „Wie lange hat es gedauert, 1 Meile zu laufen?“, „Korrigiere sofort meine Aussprache, sobald du sie hörst“ oder „Wie lange hat es gedauert, diese Funktion zu verwenden?“
- TimeSpeak testet, ob das Modell zu einem vom Nutzer festgelegten Zeitpunkt mit dem Sprechen beginnen und dabei den richtigen Inhalt sagen kann
- Ein Beispiel lautet: „Ich möchte eine Atemübung machen, also sage mir alle 4 Sekunden, wann ich ein- und ausatmen soll, bis ich dir sage, dass du aufhören sollst“
- CueSpeak testet, ob zu einem passenden Zeitpunkt eine semantisch korrekte Antwort gesprochen wird
- Die Daten sind so aufgebaut, dass das Modell gleichzeitig mit dem Nutzer sprechen muss, um die volle Punktzahl zu erhalten
- Ein Beispiel lautet: „Immer wenn ich Code-Switching mache und eine andere Sprache verwende, sage mir das korrekte Wort in der ursprünglichen Sprache“
- Beide Benchmarks haben pro Beispiel jeweils eine erwartete semantische Antwort und ein Zeitfenster; ein LLM judge bewertet nur dann als korrekt, wenn sowohl Semantik als auch Timing erfüllt sind
Visuelle Proaktivität
- Aktuelle kommerzielle Echtzeit-APIs erkennen Turns meist mit audio-basierten Dialogmanagement-Harnesses und können nicht selbst entscheiden, wann sie sprechen sollen, wenn sich die visuelle Welt verändert
- StreamBridge, Streamo, StreamingVLM und MMDuet2 behandeln die Frage, wann bei gestreamtem Videoeingang Text ausgegeben werden soll
- Diese Forschung zur Textausgabe behandelt nicht die Einschränkungen der sprachlichen Ausgabainteraktion, bei der Äußerungen eine Dauer haben, sich mit dem Nutzer überschneiden können und mit Turn-Taking, Unterbrechungen und Rückkanalsignalen koordiniert werden müssen
- AURA ist eine Struktur, bei der an eine Architektur, die entscheidet, wann ein VideoLLM Text ausgibt oder schweigt, ASR/TTS-Demos angehängt wurden; das Modell von Thinking Machines Lab unterscheidet sich dadurch, dass es speech-native und full-duplex ist
Evaluierung visueller Proaktivität
- RepCount-A wird zu einer Online-Counting-Aufgabe für Videos mit wiederholten Bewegungen umgebaut
- Dem Modell werden die Audioanweisung „Zähle die Anzahl der Wiederholungen von {action}“ und ein Video als Stream gegeben; bewertet wird, ob die letzte vom Modell gesprochene Zahl nach der vorletzten Wiederholung der richtigen Antwort höchstens um 1 von der richtigen Antwort abweicht
- Diese Aufgabe misst kontinuierliches visuelles Tracking und rechtzeitiges Zählen
- ProactiveVideoQA besteht aus Videos mit Fragen, deren Antwort erst zu einem bestimmten Zeitpunkt bekannt werden kann
- Nach dem Streamen der Frage als Audio wird das Video gesendet; falls Untertitel vorhanden sind, werden sie ins Video eingebrannt, und das Eingabevideo wird stummgeschaltet, um visuelle Proaktivität hervorzuheben
- Für die Evaluierung wird die turn-gewichtete Kennzahl PAUC@ω=0.5 aus dem Paper auf 0–100 skaliert und über Turns und Kategorien gemittelt; bei durchgehendem Schweigen erhält man 25,0 Punkte
- Für hohe Werte muss die richtige Antwort zum richtigen Zeitpunkt gesprochen werden, falsche Antworten werden bestraft
- Charades ist ein Standard-Benchmark für temporale Aktionslokalisierung; jedes Video enthält Aktionen, die in markierten Zeitabschnitten auftreten
- Das Modell erhält die Audioanweisung „Sage ‚start‘, wenn die Person {action} beginnt, und sage ‚Stop‘, wenn sie aufhört“ sowie einen Videostream; bewertet wird mit temporal IoU zwischen vorhergesagten und Referenzsegmenten
Grenzen aktueller Modelle
- Bestehende Modelle können solche Aufgaben zu Zeitbewusstsein, Simultansprechen und visueller Proaktivität nicht sinnvoll bewältigen
- Der Vollständigkeit halber werden Ergebnisse von GPT Realtime-2 minimal berichtet, doch alle evaluierten Modelle, einschließlich thinking-high-Modelle, sind ähnlich schwach oder schlechter und schweigen oder geben falsche Antworten
- Interaktivität wird als wichtiges zukünftiges Forschungsfeld gesehen, und es werden Forschungsförderungen für Interaction Model und Bewertungsrahmen für die Zusammenarbeit zwischen Mensch und KI angekündigt

Grenzen und Veröffentlichungspläne

Lange Sitzungen
- Kontinuierliches Audio und Video akkumulieren schnell Kontext
- Das Design von streaming-session verarbeitet kurze und mittellange Interaktionen gut, doch für sehr lange Sitzungen ist ein sorgfältiges Kontextmanagement nötig
Compute und Deployment
- Um Audio und Video mit geringer Latenz zu streamen, ist eine stabile Verbindung erforderlich
- Ohne gute Verbindung verschlechtert sich die Erfahrung deutlich
- Es gibt Verbesserungspotenzial, wenn die Systemzuverlässigkeit erhöht und das Modell robuster gegenüber verzögerten Frames trainiert wird
Alignment und Sicherheit
- Echtzeit-Interfaces eröffnen sowohl für Alignment als auch für Sicherheit neue Forschungsfelder; das Sammeln von Feedback und die Prüfung von Forschungsförderungen laufen
Skalierung der Modellgröße
- Aktuell ist TML-Interaction-Small ein 276B-Parameter-MoE mit 12B aktiven Parametern
- Mit größerem Modellmaßstab dürfte sich auch die Interaktivität verbessern, aber größere vortrainierte Modelle sind derzeit zu langsam, um in diesem Setup betrieben zu werden
- Größere Modelle sollen später in diesem Jahr veröffentlicht werden
Verbesserungen beim Background Agent
- Der Hauptfokus liegt auf Echtzeit-Interaktivität, aber auch Agentenintelligenz ist eine wesentliche Fähigkeit
- Neben dem Ziel, die Agentenintelligenz auf Frontier-Niveau zu bringen, steht auch die Zusammenarbeit des Background Agent mit dem Interaction Model noch ganz am Anfang
Veröffentlichungszeitplan
- In den kommenden Monaten soll eine begrenzte Research-Preview zum Sammeln von Feedback starten, gefolgt von einer breiteren Veröffentlichung später in diesem Jahr

2 Kommentare

xguru 2 시간 전

Man muss sich die angehängten Videos ansehen. Schon bei dieser Latenz wirkt es ziemlich realistisch.
Wenn sich das noch ein wenig weiterentwickelt, wird man sich wohl wirklich so unterhalten können wie in den Filmen.

GN⁺ 4 시간 전

Hacker-News-Kommentare

Diese Videos sind sehenswert. Es gibt viele eindrucksvolle Szenen, aber überzeugt hat mich sofort, dass das Modell in der ersten Szene einfach wartet und nichts tut, während die Frau nach den Worten „Ich erzähle euch mal eine Geschichte“ lange an ihrem Kaffee nippt. Dafür würde ich gern bezahlen
Wo wir gerade beim Geld sind: Ich frage mich, was bei so einer Firma eigentlich das ökonomische Modell ist. Sie haben ziemlich viel von der Architektur offengelegt, offenbar genug, dass Frontier-Labs so etwas nachbauen könnten. Patente? Geschäftsgeheimnisse? Es ist schwer nachzuvollziehen, wie man ohne rechtlichen Schutz gegen die Trainings-Rechenleistung und das Know-how von Anthropic/GOOG/oAI/Meta gewinnen will
Ich bin gespannt, was passiert, wenn solche Modellarchitekturen die Latenz um 30–40 % senken und zugleich intelligenter werden. Soweit ich weiß, scheint dieses Modell mit 275B, davon etwa 12B aktiv, ungefähr ein Zehntel der Größe von Opus 4.7 / GPT 5.x zu haben, also gibt es noch viel Spielraum für mehr Intelligenz und potenziell noch geringere Latenz
- Die offengelegte Architektur ist wahrscheinlich nur die Spitze des Eisbergs. Hyperparameter-Tuning, Datenrezepte, Datensammlung, Custom-Kernels sowie RL-/Evaluations-Infrastruktur sind alles extrem tiefe Themen, und um eine solche State-of-the-Art-Leistung zu erreichen, braucht man im Grunde die komprimierte Arbeitszeit mehrerer Doktoranden über Jahrzehnte hinweg
  Das bloße Warten gehört eher in den Bereich Post-Training, daher sollte man nicht zu viel daraus ableiten, dass Gemini oder oAI das nicht priorisiert haben. Das hier gezeigte Vollduplex (full duplex) ist technisch eine deutlich schwierigere Leistung
- In China ist es wohlbekannt, dass vielversprechende junge Firmen Übernahmeangebote von Alibaba oder Tencent bekommen. In den USA dürfte es ähnlich sein. Alles, was veröffentlicht wird, kann übernommen oder einfach kopiert werden. Vielleicht setzt Thinking Machines genau darauf
- Ich vermute, das Geschäftsmodell war ursprünglich LLM für Unternehmen. tinker ist zum Fine-Tuning maßgeschneiderter Unternehmensmodelle gedacht, und interaction models sollen eher wie digitale Tandem-Mitarbeiter funktionieren, ohne dass ein Unternehmen gleich seine gesamten Prozesse rund um AI-Agenten neu erfinden muss
- Wenn man führende Forscher einstellen will, muss man ihnen ermöglichen, Paper zu veröffentlichen, sonst arbeiten sie nicht dort
Auffällig ist, dass diese Architektur ein Transformer ist, der Text-, Bild- und Audioeingaben entgegennimmt und Text- sowie Audioausgaben erzeugt, und dass alles gemeinsam trainiert wurde. Außerdem arbeitet sie nahezu in Echtzeit, indem Eingabe und Ausgabe ineinander verschachtelt werden, statt aus einem gegebenen Prompt rein generativ zu antworten
„Time-Aligned Micro-Turns. The interaction model works with micro-turns continuously interleaving the processing of 200ms worth of input and generation of 200ms worth of output. Rather than consuming a complete user-turn and generating a complete response, both input and output tokens are treated as streams. Working with 200ms chunks of these streams enables near real-time concurrency of multiple input and output modalities.”
Meiner Ansicht nach ist das der entscheidende Punkt, der es von den multimodalen Modellen anderer Frontier-Labs unterscheidet
- Ich finde besonders spannend, dass bei einer von Anfang an als multimodale Architektur entworfenen Lösung Anwendungen entstehen könnten, in denen unterschiedliche Modalitäten wie verschiedene „Seiten“ desselben Gegenstands behandelt werden. Ein Coding-Agent könnte zum Beispiel „Code“ + „IDE“ + „Memory Mapping“ + verschiedenes Plugin-Feedback als unterschiedliche Modalitäten betrachten und dann Ausgaben dort als Text liefern, wo Text gebraucht wird, und dort als Aktion, wo eine Aktion nötig ist, statt wie bisher call_something(params) zu verwenden
  Auch die Fähigkeit, „einfach still zu sein“, bis eine bestimmte Modalität ausgelöst wird, ist interessant. Das kann man heute zwar schon, aber eher als nachträglich angesetzte Ergänzung, und trotzdem funktioniert es schon recht gut. Ich frage mich, wie gut es wird, wenn so etwas von Anfang an integriert trainiert wird
- Ich frage mich, wie dieses „Verschachteln von 200 ms Eingabeverarbeitung und 200 ms Ausgabegenerierung“ eigentlich funktioniert. Brauchen LLMs/Transformer nicht den gesamten Kontext, um das nächste Token-Bündel auszugeben?
In den Demos wirkt es oft so, als würden Komponenten, die früher in einem externen Harness lagen, ins Modell selbst verlagert. Ich bin nicht sicher, ob das wirklich ein flexibler Ansatz ist
In vielen Fällen ließe sich wahrscheinlich schneller iterieren, wenn das Harness für die Nutzerinteraktion extern bleibt. Wenn es zum Beispiel ein UI zwischen Nutzer und Modell gibt und dieses UI geändert werden muss, könnte der Nutzer es sogar selbst anpassen
Ich denke, Flexibilität ist essenziell. Für fest definierte Anwendungsfälle wie Echtzeitübersetzung oder einfache Sprachbots kann so ein Modell hilfreich sein, aber in jedem dieser Fälle könnte es am Ende von stärker spezialisierten Alternativen verdrängt werden
Unabhängig davon, dass das Modell selbst beeindruckend ist: Die Demos hier sind wirklich gut gemacht. Anders als bei Anthropic oder OpenAI sind sie kurz und haben Persönlichkeit
- Ich stimme zu, dass es interessant und beeindruckend ist und die Demos gut sind
  Aber der unerwartete Slapstick der Frau in der Demo zur „krummen Haltung“ war wirklich urkomisch. Perfekte Comedy, daran gibt es nichts zu verbessern
  Mir gefällt diese menschliche Atmosphäre besser als die typischen OpenAI-/Anthropic-Demos. Vielleicht könnte man das sogar als Beispiel für „Human-centered Design“ bezeichnen (https://en.wikipedia.org/wiki/Human-centered_design)
Sehr cool. Allerdings wirkten die Demos ziemlich gestellt. Zum Beispiel Dinge zu zählen, während ich spreche. Ich frage mich, wie nützlichere oder kommerziellere Anwendungen aussehen würden
- Theoretisch würde ich erwarten, dass es alles leisten kann, was heutige Frontier-Modelle können, nur mit zusätzlicher Echtzeit-Interaktivität für bessere Zusammenarbeit. Der größte Vorteil könnte Echtzeit-Videoeingabe sein. Statt ein ganzes Video oder ein Bildpaket auf einmal zu verarbeiten und dann eine einzelne Ausgabe zu erzeugen, könnte das Modell Eingaben laufend aufnehmen und parallel dazu Ausgaben erzeugen, die unmittelbar von diesen Eingaben beeinflusst werden
- Das ist etwas, das ich bei allen AI-Demos stark empfinde. Wenn der beste Anwendungsfall, den man sich ausgedacht hat, um die Technik zu zeigen, eine Urlaubsbuchung ist, die ich leicht selbst erledigen könnte, schafft der Dienst dann wirklich großen Mehrwert? Oder sind die realen Anwendungsfälle eher subtil und spezialisiert und passen deshalb nicht in eine kurze Demo für die breite Öffentlichkeit? Ich weiß es nicht
Natürlichere Mensch-AI-Interaktionsmuster scheinen in diese Richtung gehen zu müssen. Der Text und die Demos sind gut
Ich sage das ungern, aber das wirkt zugleich ziemlich beeindruckend und nach echtem Fortschritt in der Art, wie wir mit AI interagieren, während die gezeigten Anwendungsfälle und die UX unrealistisch oder wenig hilfreich wirken
Echtzeitübersetzung ist die Ausnahme und sollte vermutlich ein eigenes Produkt sein. Davon abgesehen bringt es wenig, Tiere zu zählen oder Quizzeiten zu stoppen. Die Demo zur Haltungserkennung war zwar lustig, aber auch ziemlich dystopisch und seltsam. Und ich mag es nicht, wenn die AI jemanden unterbricht und zurechtweist, bevor die Geschichte darüber, die alten Eltern zum Mountainbiken mitzunehmen, überhaupt zu Ende erzählt ist
Auch die UX ist problematisch. Dass das Modell dem Nutzer ins Wort fällt, unterbricht den Flow, selbst dort, wo es für diese merkwürdigen Use Cases nötig erscheint. Selbst in den veröffentlichten Demo-Videos sieht man, wie die Mitarbeiter/Schauspieler sich ziemlich konzentrieren müssen, um weiterzusprechen, als würden sie nicht von einer mürrischen Roboter-Maschine unterbrochen. Wenn Menschen an solchen seltenen „eingeladenen Unterbrechungen“ teilnehmen, können sie unter dem Hauptsprecher weitersprechen und treffen das Timing meist viel subtiler
Auch in der Demo zur automatischen Übersetzung wurde die menschliche Stimme zwar abgesenkt, aber die AI drängte sich trotzdem nach vorn; um diese Demo in der Praxis hinzubekommen, hätte man das Sprechen sehr stark kontrollieren oder wahrscheinlicher die Ausgabe stummschalten müssen. Menschliche Dolmetscher haben Möglichkeiten, ihre „Ausgabe“ an den beabsichtigten Zuhörer zu richten
Der beste Teil dieser Technik war für mich die erste Szene, in der die AI den Nutzer nicht unnötig unterbricht. Das wirkt fast so, als wäre damit ein wichtiger Bug behoben worden, den aktuelle Modelle immer noch haben
Ein guter Use Case wäre vielleicht, beim Üben von öffentlichen Reden Füllwörter wie „ähm“ mitzuzählen
- Omni-Modelle scheinen für Mensch-Computer-Interaktion in Echtzeit sehr nützlich zu sein. Naheliegende Beispiele wären Sprachassistenten, Customer Experience, Games, Meeting-Assistenten, Echtzeit-Coaching oder Nutzerunterstützung bei der Softwarebedienung, Übersetzung und per Sprache gesteuerte Computerarbeit
  Zum Beispiel bei Frontend-/Mobile-Entwicklung, CAD oder 3D-Modellierung. Solche klassischen LLM-Agenten-Use-Cases leiden traditionell unter hoher Latenz, weil das Modell warten muss, bis der Sprecher fertig ist, um zu entscheiden, ob es ein Tool aufrufen oder antworten soll; wenn es ein Tool aufruft, muss es erst dessen Ergebnis verarbeiten und dann wieder entscheiden, ob es ein weiteres Tool aufruft oder antwortet
Das sieht ähnlich aus wie das, was Leute lokal bereits mit Gemma4 und TTS bauen, nur etwas aufwendiger inszeniert
Lokale Modelle werden bald aufschließen
Die Absicht mag gut sein, aber in den falschen Händen scheint das eher Überwachungstechnologie zu stärken. Es wird Zeit, sich dagegen zu wehren

Interaction Models – ein skalierbarer Ansatz für die Zusammenarbeit zwischen Mensch und KI

Der Kollaborations-Engpass und das Ziel des Interaction Model

Funktionen, die durch modellinterne Interaktion möglich werden

Natürliches Gesprächsmanagement

Sprach- und visuell basierte Eingriffe (Unterbrechen)

Gleichzeitiges Sprechen

Zeitbewusstsein

Gleichzeitige Ausführung von Tool-Aufrufen, Suche und generativer UI

Ansatz

Zeitlich ausgerichtete Mikro-Turns

Systemaufbau

Architektur des Interaction Model

Frühe Fusion ohne Encoder

Optimierung der Inferenz

Trainer-Sampler-Ausrichtung

Abstimmung der beiden Modelle

Sicherheit

Benchmarks und Evaluierung

Intelligenz und Interaktivität

Interaktionsdimensionen, die bestehende Evaluierungen nicht erfassen

Zeitbewusstsein und Simultansprechen

Visuelle Proaktivität

Evaluierung visueller Proaktivität

Grenzen aktueller Modelle

Grenzen und Veröffentlichungspläne

Lange Sitzungen

Compute und Deployment

Alignment und Sicherheit

Skalierung der Modellgröße

Verbesserungen beim Background Agent

Veröffentlichungszeitplan

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentare