FUTO Swipe: Offenes Modell für Swipe-Eingabe
(swipe.futo.tech)- Ein Versuch, die Swipe-Eingabemethode mobiler Tastaturen als offenes Modell plus Algorithmus umzusetzen
- Bisherige hochwertige Swipe-Eingabe war an datenschutzverletzende Tastatur-Apps oder nicht lizenzierte proprietäre Bibliotheken gebunden, daher wurde eine Alternative benötigt
- Wird in die vollständig offline arbeitende Android-App FUTO Keyboard integriert; das Modell kann heruntergeladen und auch selbst gebaut werden
- Seit August 2024 wurden englische QWERTY-Swipes gesammelt, mehr als 1 Million Datensätze erfasst und im März 2025 als MIT-lizenziertes Dataset auf HuggingFace veröffentlicht
- Die Struktur ist in einen universellen Encoder, ein sprachspezifisches ContextLM und einen sprach- und layoutspezifischen Decoder aufgeteilt; im Testset wurden eine Top-4-Fehlerrate von rund 4 % und eine Fehlerrate von unter 1 % ohne OOV erreicht
- Das Gesamtmodell umfasst rund 2,5 Millionen Parameter und ist mit etwa 1,36 Millionen aktiven Parametern ein kleines Modell, das über die C++-Inference-Bibliothek swipe-library auch auf leistungsschwachen Geräten auf Ausführung im Millisekundenbereich abzielt
Das Problem, das mit einem offenen Swipe-Eingabemodell gelöst werden soll
- FUTO Swipe ist eine Produktfamilie aus Modellen und Algorithmen, die Swipe-Pfade in Wortvorhersagen umwandelt
- Sie kann derzeit in der vollständig offline arbeitenden Android-Tastatur-App FUTO Keyboard verwendet werden
- Die Webdemo läuft serverseitig, um die Seitengröße klein zu halten, in der tatsächlichen Produktumgebung arbeitet sie jedoch on-device, wodurch die Latenz geringer ist
- FUTO hat dieses System zwar in erster Linie für FUTO Keyboard entwickelt, begrüßt aber auch eine breitere Nutzung der Modelle durch die Community
- Da es sich um das Ergebnis einer langfristigen Investition handelt, wird um eine für Endnutzer sichtbare Namensnennung gebeten; die Modelllizenz folgt der FUTO Model License
Dataset und Modellaufbau
- Im August 2024 begann auf swipe.futo.org die Erfassung von englischen QWERTY-Swipes
- Nutzer besuchten die mobile Webseite freiwillig und sahen Hinweise sowie Informationen zum Dataset
- Nach Zustimmung swipten sie Sätze, überwiegend aus Wikipedia, Wort für Wort
- So entstanden mehr als 1 Million Swipes, wobei einige Swipes von geringer Qualität herausgefiltert wurden
- Im März 2025 wurde das Dataset mit 1 Million Swipes unter MIT-Lizenz auf HuggingFace veröffentlicht
- Die Modellarchitektur ist in drei Modelle mit unterschiedlichen Rollen aufgeteilt
- Encoder: ein von Layout und Sprache unabhängiges universelles Modell, das für allgemeine Swipe-Eingabevorhersage genutzt wird, aber keine Spitzenwerte bei der Genauigkeit liefert
- ContextLM: ein sehr kleines Sprachmodell für eine einzelne Sprache, das auf Basis vorhergehender Wörter unplausible Kandidaten entfernt und so die Vorhersagequalität verbessert. Für das Training werden nur Textdaten benötigt
- Decoder: ein auf Sprache und Layout spezialisiertes Modell, das Layout-Eigenschaften lernt und Spitzengenauigkeit erreicht; derzeit gibt es nur einen QWERTY-Englisch-Decoder
Leistung und Ausführungsgröße
- Leistungswerte hängen stark vom Benchmark ab, daher können die Ergebnisse in der Praxis variieren
- Mit der Kombination aus 3 Modellen und Beam Width 300 liegt die Top-4-Fehlerrate im Testset bei etwa 4 %
- Ohne Wörter, die nicht im Wörterbuch enthalten sind, liegt die Fehlerrate unter 1 %
- FUTO bewertet das Niveau als vergleichbar mit Tastaturen großer Technologiekonzerne
- Die Modelle sind mit Blick auf mobile Ausführung klein gehalten
- Der Encoder hat 635.140 Parameter
- Der Decoder hat zusätzlich 304.155 Parameter
- Das ContextLM hat 1,5 Millionen Parameter, davon 1,1 Millionen Embeddings
- Die aktiven Parameter betragen 1.364.271, die Gesamtzahl der Parameter 2.494.767
- Auch auf leistungsschwachen Geräten ist eine Ausführung im Millisekundenbereich möglich, und für das Training war nicht mehr als eine Workstation-GPU erforderlich
Inference-Bibliothek und Lizenzen
- Modellvorhersagen allein reichen nicht aus; es wird eine wörterbuchbeschränkte Beam Search benötigt, die Wortkandidaten bewertet und die wahrscheinlichsten Kandidaten findet
- Dafür wurde die C++-Bibliothek swipe-library veröffentlicht
- swipe-library übernimmt die gesamte Inference, das Decoding und die Beam Search und verbindet so den Swipe-Pfad mit der Wortvorhersage
- Das Modell steht unter der FUTO Model License, die Inference-Bibliothek unter GPL
- FUTO bereitet derzeit ein Paper vor, das Training und Architektur ausführlicher behandelt
2 Kommentare
Ich benutze die Tastatur dieses Unternehmens mit Spracherkennung, und sie ist gut.
Hacker-News-Kommentare
Ich mag Swipe-Eingabe wegen der Geschwindigkeit. Sie ist meist schneller als Tippen und lässt sich leicht mit einer Hand nutzen, verwechselt aber ständig ähnliche Wörter und unterscheidet auch schlecht zwischen einzelnen und doppelten Buchstaben
Ich wollte schon lange ein neues Tastaturlayout nur für Swipe. So wie Dvorak die Ergonomie des englischen Tippens optimiert hat, wäre ein Layout gut, das beim Swipen Wortüberlappungen und Mehrdeutigkeiten reduziert
Es müssten nicht einmal unbedingt 26 Tasten sein; man könnte v/w/x/z auf eine Taste legen und einzelne Buchstaben per langem Drücken eingeben. Umgekehrt müsste man vielleicht
eundeetrennen oder eine spezielle Taste für „vorherigen Buchstaben doppeln“ habenDie meisten Probleme entstehen wohl einfach dadurch, dass QWERTY so schlecht zu Swipe passt. Wenn es für Englisch ein optimales Layout gäbe, das die Genauigkeit nicht nur auf gefühlte 90–95 %, sondern auf 99,9 % bringt, wäre ich absolut bereit, ein neues Layout zu lernen
https://github.com/futo-org/futo-keyboard-layouts/issues/163
Aufgrund der Modellarchitektur konnten wir für jedes Layout etwa 50.000 synthetische Swipe-Gesten erzeugen und durch das Modell laufen lassen, um die Erkennungsgenauigkeit direkt zu optimieren. So wurden rund 800.000 Layouts getestet
Das größte Problem von QWERTY ist, dass zu viele Wörter als gerade Linie oder als Muster aus drei Buchstaben mit stumpfem Winkel geswipt werden. Solche Muster sind schwer zu erkennen, und es ist für den Nutzer ebenfalls schwer, per Geste klar zu zeigen, welche Buchstaben gemeint waren
Das neuronale Swipe-Modell sucht im Gestenmuster nach Signalen dafür, dass der Nutzer auf bestimmte Buchstaben gezielt hat, statt wie algorithmisches Shape-Matching einfach die Form der Geste abzugleichen
Wenn man die Form der Tastatur verändert, können sich Gesten besser ausbilden und die Buchstabensignale klarer werden. Anders als Shape-Matching nutzt das Modell auch Zeitinformationen und kann daher auf Verweildauer reagieren, aber Verweilen unterbricht den Fluss, daher sollte es in einem Swipe-Layout möglichst minimiert werden
Es scheint auch einen modernen Nachfolger zu geben: https://play.google.com/store/apps/details?id=inc.flide.vi8
Ich habe diese Tastatur eine Weile immer wieder benutzt, bin aber jedes Mal zu gboard zurückgekehrt; nach diesem Update bin ich nun komplett umgestiegen. Wirklich gut
Es gibt noch das Problem, dass mitten im Satz zufällig Wörter großgeschrieben werden, und bei den Wortvorschlägen scheint der Kontext nicht gut berücksichtigt zu werden, sodass oft Wörter auftauchen, die nach dem vorherigen Wort unmöglich passen
Es ist noch nicht ganz auf gboard-Niveau, aber inzwischen nah genug, dass ich dabeibleibe
Mit leistungsstärkerer Hardware kann man auf der Website größere Sprachmodelle und ein größeres Wörterbuch herunterladen, und der Unterschied ist spürbar
Grundsätzlich schade finde ich nur, dass man aus ideologischen Gründen offenbar gegen das Hinzufügen einer GIF-Suche ist; manchmal vermisse ich die Funktion: https://github.com/futo-org/android-keyboard/issues/293#issu...
Cool. Ich nutze die FUTO-Tastatur seit zwei Jahren und sie war bisher die beste kostenlose, datenschutzfreundliche Tastatur, die ich gefunden habe, aber das Swipe bei solchen Tastaturen war so schlecht, dass es für jemanden wie mich, der viel swipet, wirklich schmerzhaft war
Es freut mich, dass die etwa eine Stunde Swipen, die ich zum Dataset beigetragen habe, tatsächlich geholfen zu haben scheint. Beim Ausprobieren fühlt es sich jetzt so gut an wie die Google-Tastatur
Nur dass ständig
whatsstattwhat'sgeswipt wird, ist etwas lustig. Hoffentlich wird das später behobenFalls sich jemand für die Lizenz interessiert: Die Bibliothek steht unter GPLv3, was gut ist, aber die Android-Tastatur unter der Futo License, was eher nicht so gut ist
https://gitlab.futo.org/keyboard/swipe-library/-/blob/master...
https://github.com/futo-org/android-keyboard/blob/master/LIC...
Meinst du vielleicht die Klausel, dass man in verteilten Kopien keine Funktion entfernen oder verbergen darf, mit der an den Lizenzgeber gezahlt wird?
Nachdem ich vor ein paar Jahren auf iOS Nintype erlebt hatte, konnte ich keine andere Swipe-Tastatur mehr benutzen. Inzwischen tippe ich mit der Standardtastatur und swipe nur noch gelegentlich ein oder zwei Wörter, wenn ich nicht beide Hände benutzen kann.
Wenn man das Handy mit beiden Händen hält, fühlt sich das Swipen mit einem Finger unnatürlich und träge an. Ich wünschte, Apple hätte Nintype gekauft oder „gesherlockt“ und in die Standardtastatur integriert.
Ich habe es schon benutzt, bevor Apple offiziell Drittanbieter-Tastaturen erlaubt hat.
keyboard 69gebaut, und ich habe den jahrelang benutzt.Die User Experience war erstaunlich, und jedes Swipe-System, das ich seitdem ausprobiert habe, fühlt sich im Vergleich wirklich stumpf an. Zwei-Finger-Swipes sind ergonomisch unschlagbar, aber leider scheint das eine zu spezielle Innovation zu sein.
Futo mit dem neuen Swipe-Modell ist die erste Android-Tastatur, die ich benutzt habe und bei der es sich nicht wie ein Kompromiss gegenüber GBoard anfühlt.
Sie hat integrierte Spracheingabe, gute Autokorrektur beim Tippen und gute Autokorrektur beim Swipen.
Korrektur: Es ist nicht garantiert kostenlos und Open Source. Die Lizenzsituation ist verwirrend. Trotzdem funktioniert es gut, also werde ich es wahrscheinlich statt Gboard benutzen.
Das ist eine ziemlich große Sache. Für mich kommt das dem ersten wirklich brauchbaren kostenlosen Open-Source-Swipe-Modell am nächsten. Es eröffnet die Möglichkeit, Swipe-Typing auf anderen Plattformen als iOS und Android zu ermöglichen, und nimmt neuen Betriebssystemen einen großen Teil eines bisher schmerzhaften Problems ab.
Gerade weil Microsoft angefangen hat, in SwiftKey Dark-Pattern-Weiterleitungen zu Werbung und zu Bing einzubauen, habe ich es gelöscht — gutes Timing.
Das Panel, das mich zur Nutzung der Backup-Funktion aufforderte, tauchte ständig wieder auf, und es wurde so schlimm, dass ich am Ende zu GBoard gewechselt bin. Es ist nicht dasselbe, aber ich gewöhne mich daran.
Vermutlich geht es ums Geld, aber ich finde nicht, dass Microsoft bei allem, was es tut, zwingend maximal viel Geld verdienen muss.
Sieht gut aus, aber das große Problem der Futo-Tastatur ist, dass sie immer nur eine Sprache gleichzeitig kann. In gboard kann ich in den drei Sprachen, die ich benutze, swipen, ohne ständig umzuschalten. Ich wünschte, Futo würde das auch so machen.
Sprachdiktat ist viel besser als bei dem GBoard, das ich bisher benutzt habe. Es setzt Großschreibung am Satzanfang und Satzzeichen, ohne dass ich mich darum kümmern muss, hat mehrere Sätze ohne nachträgliche Bearbeitung perfekt getroffen und läuft komplett auf einem lokalen Modell.
Der Nachteil ist, dass es nicht in Echtzeit aktualisiert wird, sondern erst nach dem Ende des Sprechens gesammelt umgewandelt wird. Außerdem scheint es die überempfindlichen Backspace-Swipes und die Leertaste behoben zu haben, wie ich sie von meinem letzten Versuch vor 1–2 Jahren in Erinnerung hatte, und ein wenig Anpassung ist jetzt auch möglich.