9 Punkte von xguru 2024-03-29 | 1 Kommentare | Auf WhatsApp teilen
  • Sprachbasierter Dokumenteneditor, der Spracherkennung mit natürlichsprachlichen Befehlen kombiniert
  • Wenn Nutzer etwa sagen „Mach daraus eine Liste“ oder „Füge auf Seite 86 dieses Buches ein Inline-Zitat hinzu“, führt das System den entsprechenden Befehl aus
  • Spracherkennungssoftware bietet weiterhin eine umständliche und fehleranfällige Nutzererfahrung
    • Die Software konkurriert zwar bei der Genauigkeit, geht aber nicht auf die fragile Natur des erzeugten Textes ein
    • Man muss spezielle Befehle lernen, und als Ersatz für die Tastatur reicht das nicht aus
  • So löst Aqua Voice das Problem
    • Aqua kann Gesprochenes wortgetreu transkribieren, Befehle ausführen oder das Gesagte in den beabsichtigten geschriebenen Text elegant überarbeiten
    • Wenn man stottert oder einen Satz mehrmals sagt, wählt Aqua nur die endgültige Version aus und wandelt sie in Text um
  • Vision und Technologie von Aqua Voice
    • Ziel ist eine natürlichere Spracherkennung und ein kollaboratives AI-Schreiberlebnis
    • Bereitstellung eines Streaming-Dienstes, der fortlaufend in Echtzeit mit Modellen verbunden ist
    • Sechs Modelle arbeiten zusammen, um Dokumente je nach Absicht zu transkribieren, interpretieren und umzuschreiben
    • Verwendung von MoE-Transkription (Mixture of Experts), um die Genauigkeit in Echtzeit zu verbessern

1 Kommentare

 
xguru 2024-03-29

Hacker-News-Kommentare

  • Großartig! Ein paar Anmerkungen:

    • Der Begriff „1000 Token“ bedeutet für nichttechnische Nutzer nichts, und für mich auch fast nichts. Sagt mir einfach, wie viele Wörter ich sprechen kann.
    • Diese LaTeX-Fehlerratentabelle in Serifenschrift ist auch viel zu langweilig. Die Leute wollen etwas Knalliges wie „bis zu 7x weniger Fehler als macOS-Diktat“, keine Vergleichstabelle.
    • „0,05 Wortfehlerrate“ sollte auch verschwinden. Erklärt, was das bedeutet, und verwendet Prozentangaben.
    • „Name, Wort, Fakt oder Zahl vergessen? Bitten Sie Aqua, es zu ergänzen.“ Es wäre schön, wenn man diese Funktion deaktivieren könnte, oder wenigstens eine klare Kennzeichnung hätte, wenn etwas, das ich nicht gesagt habe, in das Dokument eingefügt wird. Wenn ich diktiere, möchte ich in der Regel nur die Wörter auf der Seite haben, die ich tatsächlich gesagt habe.
  • Wie andere schon gesagt haben: gut gemacht.

    • Das scheint besonders gut für ein Telefon oder eine Uhr zu sein. Die Möglichkeit, dort Notizen zu machen, wo die Tastaturerfahrung schlechter ist, wirkt wie ein echter Gamechanger.
    • Habt ihr das schon einmal zum Programmieren verwendet? Das könnte als IDE-/Texteditor-Plugin erstaunlich gut sein.
    • Schön zu sehen, dass ihr nichts Bedauerliches mit AI macht. Viele der Anwendungen, die wir sehen, sind schrecklich. Was ihr gebaut habt, ist hervorragend und weit entfernt von einer verfluchten Schokoladenfabrik-Erfahrung.
  • Ich habe 94/95 eine RSI-bedingte Verletzung erlitten und nutze seitdem Spracherkennung. Ich möchte eine Lösung, mit der ich Windows verlassen kann. Ich möchte eine Lösung, mit der ich in Firefox, Thunderbird und VS Code problemlos diktieren kann. Am wichtigsten ist die Textbearbeitungs-/Manipulationsfunktion, die Nuance „Select-and-Say“ nannte. Damit sind kleinere Bearbeitungen möglich, das Ersetzen von Sätzen durch neues Diktat usw., und dadurch lässt sich Sprache viel einfacher nutzen als mit nur aufgezeichnetem Diktat, wie bei den meisten Whisper-Apps. Wenn ihr das könnt, bin ich ein Kunde auf Lebenszeit.

    • Als Nächstes ist die Fähigkeit wichtig, Action-Routinen für Grammatik schreiben zu können. Meine Präferenz ist Python, weil es das einfachste Ziel ist, wenn man Code mit chatGPT schreibt. Aber ich könnte vermutlich auch eine andere Sprache lernen (außer JavaScript, das hasse ich). Ich verweise auf Joel Goulds Paket „natPython“. Hier sind die ursprüngliche Präsentation und das, was Leute darauf aufgebaut haben.
    • Es gibt Lektionen aus der Vergangenheit. In den frühen Tagen von DragonDictate/NaturallySpeaking, als Baker Dragon Systems leitete, schickten sie regelmäßig Mitarbeitende zu lokalen Treffen von Spracherkennungs-Nutzergruppen, damit sie mit uns darüber sprechen konnten, was funktionierte und was scheiterte. Sie wussten, dass der Blick auf uns Crips ihnen mehr Informationen darüber geben würde, wie man eine gute Spracherkennungsumgebung aufbaut, als jede andere Nutzer-Community. Wir entdeckten Corner Cases früher als alle anderen. Einige Dinge machten sie gut. Zum Beispiel unterstützten sie einige Treffen von Spracherkennungs-Nutzergruppen mit Räumen und Arbeitszeit von Mitarbeitenden.
    • Nuance scheint diese Lektion vergessen zu haben.
    • Jedenfalls wollte ich heute eigentlich arbeiten, aber eure Präsentation hat das zerschossen. :-)
    • [Nachtrag] Wirklich beeindruckend. Ich muss offensichtlich mehr Zeit damit verbringen. Ich sehe, dass meine Naturally-Speaking-Erfahrung meinen Blick eingeschränkt hat, und ihr habt einen viel weiteren Horizont dafür, was eine Benutzeroberfläche sein kann.
  • So etwas wollte ich für Dateneingabe. Ich habe beim Messen oft alle Hände voll zu tun und muss mir Notizen machen. Kann das tabellarische Daten ausgeben/formatieren?

  • Das ist wirklich großartig. Ich habe gehofft, dass jemand so etwas baut:

    • Ich würde dafür bereitwillig 10 $ im Monat zahlen. Aber was ich wirklich möchte, ist eines der folgenden Dinge:
      • ein Raycast-Plugin oder eine Desktop-App, damit das mit allen editierbaren Textfeldern in meiner Umgebung interagieren kann
      • eine API, an die man bestehenden Text/Kontext plus Audiostream übergeben kann und dafür einen kontinuierlichen Takt vollständiger Dokument-Updates zurückbekommt. Dann könnte die Community Obsidian-/VSCode-/Browser-Plugins für einen riesigen Bereich von Texteingaben bauen
    • Ich werde heute Nachmittag sowieso 10 $ zahlen, und Glückwunsch!
  • Diktiersoftware ist in der Medizinbranche enorm wichtig. Jeder Arzt nutzt sie, und etwas wie eure Lösung könnte ihre Arbeit viel effizienter machen. Habt ihr dieses Marktsegment schon einmal erkundet?

  • Das ist erstaunlich! Es fühlt sich extrem gut in der Nutzung an, und die Kombination aus Transkription + Intention scheint enormes Potenzial zu haben.

    Ich würde das gerne zum Diktieren von Arztbriefen usw. verwenden. Sind lokale Modelle/HIPAA-Compliance noch weit entfernt?

  • Glückwunsch zum Launch!

    Als jemand mit Neurodivergenz, der mit Text sehr viel besser arbeitet als mit Sprache, liebe ich diese Idee absolut. Mein einziges Feedback ist ... ich würde das gern mit mehr Kontrolle betreiben. Ich lasse bereits LLMs lokal laufen (z. B. LM Studio) und könnte auch Dinge wie Whisper ausführen. Ich verstehe, dass Open-Sourcing (oder das Verfügbar-Machen des Quellcodes) euren Kommerzialisierungsversuchen entgegenstehen könnte. Es könnte jedoch einige Optionen wie bei Red Hat geben, bei denen man für die geschäftliche Nutzung Gebühren erhebt und die lokale Ausführung für private Nutzung kostenlos erlaubt.

    Einerseits habt ihr in einem Bereich, von dem viele Menschen profitieren und den viele nutzen können, einen soliden First-Mover-Vorteil, aber jemand könnte vermutlich konkurrenzfähig werden, wenn er mehrere Schichten mehrerer LLM-Ausgaben zusammenkleistert (solche Projekte sind oft Open Source, wenn auch manchmal weniger „poliert“). Wenn ihr ein gutes Angebot macht, könnte es eine große Chance auf Erfolg geben. Viel Glück!

  • Das ist cool, ich werde wahrscheinlich abonnieren – ich muss nur einige meiner anderen Abos reduzieren – in letzter Zeit gibt es zu viele verlockende AI-Produkte.

  • Es wird nicht ausdrücklich gesagt, aber ich würde gern wissen, welche Daten in die Cloud gehen – ich nehme an, Sprachaufnahmen inklusive allem? Oder findet STT auf dem Gerät statt? Und wie sieht eure Datenschutz-/Aufbewahrungsrichtlinie für diese Daten aus? Großartige Demo und cooles Produkt!