FUTO Swipe: Offenes Modell für Swipe-Eingabe

(swipe.futo.tech)

2 Punkte von GN⁺ 4 시간 전 | 2 Kommentare | Auf WhatsApp teilen

Ein Versuch, die Swipe-Eingabemethode mobiler Tastaturen als offenes Modell plus Algorithmus umzusetzen
Bisherige hochwertige Swipe-Eingabe war an datenschutzverletzende Tastatur-Apps oder nicht lizenzierte proprietäre Bibliotheken gebunden, daher wurde eine Alternative benötigt
Wird in die vollständig offline arbeitende Android-App FUTO Keyboard integriert; das Modell kann heruntergeladen und auch selbst gebaut werden
Seit August 2024 wurden englische QWERTY-Swipes gesammelt, mehr als 1 Million Datensätze erfasst und im März 2025 als MIT-lizenziertes Dataset auf HuggingFace veröffentlicht
Die Struktur ist in einen universellen Encoder, ein sprachspezifisches ContextLM und einen sprach- und layoutspezifischen Decoder aufgeteilt; im Testset wurden eine Top-4-Fehlerrate von rund 4 % und eine Fehlerrate von unter 1 % ohne OOV erreicht
Das Gesamtmodell umfasst rund 2,5 Millionen Parameter und ist mit etwa 1,36 Millionen aktiven Parametern ein kleines Modell, das über die C++-Inference-Bibliothek swipe-library auch auf leistungsschwachen Geräten auf Ausführung im Millisekundenbereich abzielt

Das Problem, das mit einem offenen Swipe-Eingabemodell gelöst werden soll

FUTO Swipe ist eine Produktfamilie aus Modellen und Algorithmen, die Swipe-Pfade in Wortvorhersagen umwandelt
Sie kann derzeit in der vollständig offline arbeitenden Android-Tastatur-App FUTO Keyboard verwendet werden
Die Webdemo läuft serverseitig, um die Seitengröße klein zu halten, in der tatsächlichen Produktumgebung arbeitet sie jedoch on-device, wodurch die Latenz geringer ist
FUTO hat dieses System zwar in erster Linie für FUTO Keyboard entwickelt, begrüßt aber auch eine breitere Nutzung der Modelle durch die Community
Da es sich um das Ergebnis einer langfristigen Investition handelt, wird um eine für Endnutzer sichtbare Namensnennung gebeten; die Modelllizenz folgt der FUTO Model License

Dataset und Modellaufbau

Im August 2024 begann auf swipe.futo.org die Erfassung von englischen QWERTY-Swipes
- Nutzer besuchten die mobile Webseite freiwillig und sahen Hinweise sowie Informationen zum Dataset
- Nach Zustimmung swipten sie Sätze, überwiegend aus Wikipedia, Wort für Wort
- So entstanden mehr als 1 Million Swipes, wobei einige Swipes von geringer Qualität herausgefiltert wurden
- Im März 2025 wurde das Dataset mit 1 Million Swipes unter MIT-Lizenz auf HuggingFace veröffentlicht
Die Modellarchitektur ist in drei Modelle mit unterschiedlichen Rollen aufgeteilt
- Encoder: ein von Layout und Sprache unabhängiges universelles Modell, das für allgemeine Swipe-Eingabevorhersage genutzt wird, aber keine Spitzenwerte bei der Genauigkeit liefert
- ContextLM: ein sehr kleines Sprachmodell für eine einzelne Sprache, das auf Basis vorhergehender Wörter unplausible Kandidaten entfernt und so die Vorhersagequalität verbessert. Für das Training werden nur Textdaten benötigt
- Decoder: ein auf Sprache und Layout spezialisiertes Modell, das Layout-Eigenschaften lernt und Spitzengenauigkeit erreicht; derzeit gibt es nur einen QWERTY-Englisch-Decoder

Leistung und Ausführungsgröße

Leistungswerte hängen stark vom Benchmark ab, daher können die Ergebnisse in der Praxis variieren
- Mit der Kombination aus 3 Modellen und Beam Width 300 liegt die Top-4-Fehlerrate im Testset bei etwa 4 %
- Ohne Wörter, die nicht im Wörterbuch enthalten sind, liegt die Fehlerrate unter 1 %
- FUTO bewertet das Niveau als vergleichbar mit Tastaturen großer Technologiekonzerne
Die Modelle sind mit Blick auf mobile Ausführung klein gehalten
- Der Encoder hat 635.140 Parameter
- Der Decoder hat zusätzlich 304.155 Parameter
- Das ContextLM hat 1,5 Millionen Parameter, davon 1,1 Millionen Embeddings
- Die aktiven Parameter betragen 1.364.271, die Gesamtzahl der Parameter 2.494.767
- Auch auf leistungsschwachen Geräten ist eine Ausführung im Millisekundenbereich möglich, und für das Training war nicht mehr als eine Workstation-GPU erforderlich

Inference-Bibliothek und Lizenzen

Modellvorhersagen allein reichen nicht aus; es wird eine wörterbuchbeschränkte Beam Search benötigt, die Wortkandidaten bewertet und die wahrscheinlichsten Kandidaten findet
- Dafür wurde die C++-Bibliothek swipe-library veröffentlicht
- swipe-library übernimmt die gesamte Inference, das Decoding und die Beam Search und verbindet so den Swipe-Pfad mit der Wortvorhersage
- Das Modell steht unter der FUTO Model License, die Inference-Bibliothek unter GPL
FUTO bereitet derzeit ein Paper vor, das Training und Architektur ausführlicher behandelt

2 Kommentare

wedding 3 시간 전

Ich benutze die Tastatur dieses Unternehmens mit Spracherkennung, und sie ist gut.

GN⁺ 4 시간 전

Hacker-News-Kommentare

Ich mag Swipe-Eingabe wegen der Geschwindigkeit. Sie ist meist schneller als Tippen und lässt sich leicht mit einer Hand nutzen, verwechselt aber ständig ähnliche Wörter und unterscheidet auch schlecht zwischen einzelnen und doppelten Buchstaben
Ich wollte schon lange ein neues Tastaturlayout nur für Swipe. So wie Dvorak die Ergonomie des englischen Tippens optimiert hat, wäre ein Layout gut, das beim Swipen Wortüberlappungen und Mehrdeutigkeiten reduziert
Es müssten nicht einmal unbedingt 26 Tasten sein; man könnte v/w/x/z auf eine Taste legen und einzelne Buchstaben per langem Drücken eingeben. Umgekehrt müsste man vielleicht e und ee trennen oder eine spezielle Taste für „vorherigen Buchstaben doppeln“ haben
Die meisten Probleme entstehen wohl einfach dadurch, dass QWERTY so schlecht zu Swipe passt. Wenn es für Englisch ein optimales Layout gäbe, das die Genauigkeit nicht nur auf gefühlte 90–95 %, sondern auf 99,9 % bringt, wäre ich absolut bereit, ein neues Layout zu lernen
- FUTO Swipe unterstützt genau so ein für Swipe optimiertes Tastaturlayout namens ClearFlow: https://clearflowkeyboard.github.io/
  https://github.com/futo-org/futo-keyboard-layouts/issues/163
- Die Schätzung von 90–95 % ist ziemlich zutreffend und wurde auch so im Testset gemessen. Ein entsprechender Blogpost soll bald erscheinen
  Aufgrund der Modellarchitektur konnten wir für jedes Layout etwa 50.000 synthetische Swipe-Gesten erzeugen und durch das Modell laufen lassen, um die Erkennungsgenauigkeit direkt zu optimieren. So wurden rund 800.000 Layouts getestet
  Das größte Problem von QWERTY ist, dass zu viele Wörter als gerade Linie oder als Muster aus drei Buchstaben mit stumpfem Winkel geswipt werden. Solche Muster sind schwer zu erkennen, und es ist für den Nutzer ebenfalls schwer, per Geste klar zu zeigen, welche Buchstaben gemeint waren
  Das neuronale Swipe-Modell sucht im Gestenmuster nach Signalen dafür, dass der Nutzer auf bestimmte Buchstaben gezielt hat, statt wie algorithmisches Shape-Matching einfach die Form der Geste abzugleichen
  Wenn man die Form der Tastatur verändert, können sich Gesten besser ausbilden und die Buchstabensignale klarer werden. Anders als Shape-Matching nutzt das Modell auch Zeitinformationen und kann daher auf Verweildauer reagieren, aber Verweilen unterbricht den Fluss, daher sollte es in einem Swipe-Layout möglichst minimiert werden
- Es ist ein älteres Produkt und heute vielleicht nicht mehr so relevant, aber als Beispiel für eine gelungene Neuinterpretation eines Gesten-Interfaces gibt es https://www.the8pen.com/
  Es scheint auch einen modernen Nachfolger zu geben: https://play.google.com/store/apps/details?id=inc.flide.vi8
- Ich wollte das auch schon lange. Im Moment nutze ich Dvorak im Split-Modus, der erscheint, wenn ich das Handy für gute Eingabegeschwindigkeit ins Querformat drehe
Ich habe diese Tastatur eine Weile immer wieder benutzt, bin aber jedes Mal zu gboard zurückgekehrt; nach diesem Update bin ich nun komplett umgestiegen. Wirklich gut
Es gibt noch das Problem, dass mitten im Satz zufällig Wörter großgeschrieben werden, und bei den Wortvorschlägen scheint der Kontext nicht gut berücksichtigt zu werden, sodass oft Wörter auftauchen, die nach dem vorherigen Wort unmöglich passen
Es ist noch nicht ganz auf gboard-Niveau, aber inzwischen nah genug, dass ich dabeibleibe
Mit leistungsstärkerer Hardware kann man auf der Website größere Sprachmodelle und ein größeres Wörterbuch herunterladen, und der Unterschied ist spürbar
Grundsätzlich schade finde ich nur, dass man aus ideologischen Gründen offenbar gegen das Hinzufügen einer GIF-Suche ist; manchmal vermisse ich die Funktion: https://github.com/futo-org/android-keyboard/issues/293#issu...
- Klingt nach einer ähnlichen Situation. Bei der Spracherkennung fängt es bei mir manchmal plötzlich an, massenhaft Emojis auszuspucken; hast du das auch erlebt?
Cool. Ich nutze die FUTO-Tastatur seit zwei Jahren und sie war bisher die beste kostenlose, datenschutzfreundliche Tastatur, die ich gefunden habe, aber das Swipe bei solchen Tastaturen war so schlecht, dass es für jemanden wie mich, der viel swipet, wirklich schmerzhaft war
Es freut mich, dass die etwa eine Stunde Swipen, die ich zum Dataset beigetragen habe, tatsächlich geholfen zu haben scheint. Beim Ausprobieren fühlt es sich jetzt so gut an wie die Google-Tastatur
Nur dass ständig whats statt what's geswipt wird, ist etwas lustig. Hoffentlich wird das später behoben
Falls sich jemand für die Lizenz interessiert: Die Bibliothek steht unter GPLv3, was gut ist, aber die Android-Tastatur unter der Futo License, was eher nicht so gut ist
https://gitlab.futo.org/keyboard/swipe-library/-/blob/master...
https://github.com/futo-org/android-keyboard/blob/master/LIC...
- Um die Lizenzkomplexität noch zu erhöhen: Das Modell verwendet noch eine weitere, von FUTO selbst geschriebene Lizenz, wirkt aber zumindest nicht so schlimm wie die Tastaturlizenz: https://huggingface.co/futo-org/futo-swipe/blob/main/LICENSE...
- Mich würde interessieren, welcher Teil der Futo License besonders problematisch ist
  Meinst du vielleicht die Klausel, dass man in verteilten Kopien keine Funktion entfernen oder verbergen darf, mit der an den Lizenzgeber gezahlt wird?
- Es ist im Grunde eher eine kommerzielle Lizenz mit sehr wenigen Bedingungen
Nachdem ich vor ein paar Jahren auf iOS Nintype erlebt hatte, konnte ich keine andere Swipe-Tastatur mehr benutzen. Inzwischen tippe ich mit der Standardtastatur und swipe nur noch gelegentlich ein oder zwei Wörter, wenn ich nicht beide Hände benutzen kann.
Wenn man das Handy mit beiden Händen hält, fühlt sich das Swipen mit einem Finger unnatürlich und träge an. Ich wünschte, Apple hätte Nintype gekauft oder „gesherlockt“ und in die Standardtastatur integriert.
- Ich habe das auch benutzt. Ich habe mich gefragt, ob FUTO die Möglichkeit hat, ein Wort mit mehreren gleichzeitigen oder nicht gleichzeitigen Swipes einzugeben, aber offenbar nicht. Ich hatte sogar den App-Namen vergessen, aber das weckt wirklich Erinnerungen.
  Ich habe es schon benutzt, bevor Apple offiziell Drittanbieter-Tastaturen erlaubt hat.
- Stimme vollkommen zu. Der Entwickler hat einen fehlerhaften Android-Port von Nintype namens keyboard 69 gebaut, und ich habe den jahrelang benutzt.
  Die User Experience war erstaunlich, und jedes Swipe-System, das ich seitdem ausprobiert habe, fühlt sich im Vergleich wirklich stumpf an. Zwei-Finger-Swipes sind ergonomisch unschlagbar, aber leider scheint das eine zu spezielle Innovation zu sein.
Futo mit dem neuen Swipe-Modell ist die erste Android-Tastatur, die ich benutzt habe und bei der es sich nicht wie ein Kompromiss gegenüber GBoard anfühlt.
Sie hat integrierte Spracheingabe, gute Autokorrektur beim Tippen und gute Autokorrektur beim Swipen.
Korrektur: Es ist nicht garantiert kostenlos und Open Source. Die Lizenzsituation ist verwirrend. Trotzdem funktioniert es gut, also werde ich es wahrscheinlich statt Gboard benutzen.
Das ist eine ziemlich große Sache. Für mich kommt das dem ersten wirklich brauchbaren kostenlosen Open-Source-Swipe-Modell am nächsten. Es eröffnet die Möglichkeit, Swipe-Typing auf anderen Plattformen als iOS und Android zu ermöglichen, und nimmt neuen Betriebssystemen einen großen Teil eines bisher schmerzhaften Problems ab.
Gerade weil Microsoft angefangen hat, in SwiftKey Dark-Pattern-Weiterleitungen zu Werbung und zu Bing einzubauen, habe ich es gelöscht — gutes Timing.
- Falls du mit „gelöscht“ genau das meinst: Ich auch, aus demselben Grund.
  Das Panel, das mich zur Nutzung der Backup-Funktion aufforderte, tauchte ständig wieder auf, und es wurde so schlimm, dass ich am Ende zu GBoard gewechselt bin. Es ist nicht dasselbe, aber ich gewöhne mich daran.
- Du meinst wirklich „gelöscht“, oder? Es ist schade, wie viel Macht das Bing-Team innerhalb von Microsoft hat. Für den Ruhm und das Geld von Bing machen sie Produkte kaputt.
  Vermutlich geht es ums Geld, aber ich finde nicht, dass Microsoft bei allem, was es tut, zwingend maximal viel Geld verdienen muss.
Sieht gut aus, aber das große Problem der Futo-Tastatur ist, dass sie immer nur eine Sprache gleichzeitig kann. In gboard kann ich in den drei Sprachen, die ich benutze, swipen, ohne ständig umzuschalten. Ich wünschte, Futo würde das auch so machen.
Sprachdiktat ist viel besser als bei dem GBoard, das ich bisher benutzt habe. Es setzt Großschreibung am Satzanfang und Satzzeichen, ohne dass ich mich darum kümmern muss, hat mehrere Sätze ohne nachträgliche Bearbeitung perfekt getroffen und läuft komplett auf einem lokalen Modell.
Der Nachteil ist, dass es nicht in Echtzeit aktualisiert wird, sondern erst nach dem Ende des Sprechens gesammelt umgewandelt wird. Außerdem scheint es die überempfindlichen Backspace-Swipes und die Leertaste behoben zu haben, wie ich sie von meinem letzten Versuch vor 1–2 Jahren in Erinnerung hatte, und ein wenig Anpassung ist jetzt auch möglich.

FUTO Swipe: Offenes Modell für Swipe-Eingabe

Das Problem, das mit einem offenen Swipe-Eingabemodell gelöst werden soll

Dataset und Modellaufbau

Leistung und Ausführungsgröße

Inference-Bibliothek und Lizenzen

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentare