- Sprachbasierter Dokumenteneditor, der Spracherkennung mit natürlichsprachlichen Befehlen kombiniert
- Wenn Nutzer etwa sagen „Mach daraus eine Liste“ oder „Füge auf Seite 86 dieses Buches ein Inline-Zitat hinzu“, führt das System den entsprechenden Befehl aus
- Spracherkennungssoftware bietet weiterhin eine umständliche und fehleranfällige Nutzererfahrung
- Die Software konkurriert zwar bei der Genauigkeit, geht aber nicht auf die fragile Natur des erzeugten Textes ein
- Man muss spezielle Befehle lernen, und als Ersatz für die Tastatur reicht das nicht aus
- So löst Aqua Voice das Problem
- Aqua kann Gesprochenes wortgetreu transkribieren, Befehle ausführen oder das Gesagte in den beabsichtigten geschriebenen Text elegant überarbeiten
- Wenn man stottert oder einen Satz mehrmals sagt, wählt Aqua nur die endgültige Version aus und wandelt sie in Text um
- Vision und Technologie von Aqua Voice
- Ziel ist eine natürlichere Spracherkennung und ein kollaboratives AI-Schreiberlebnis
- Bereitstellung eines Streaming-Dienstes, der fortlaufend in Echtzeit mit Modellen verbunden ist
- Sechs Modelle arbeiten zusammen, um Dokumente je nach Absicht zu transkribieren, interpretieren und umzuschreiben
- Verwendung von MoE-Transkription (Mixture of Experts), um die Genauigkeit in Echtzeit zu verbessern
1 Kommentare
Hacker-News-Kommentare
Großartig! Ein paar Anmerkungen:
Wie andere schon gesagt haben: gut gemacht.
Ich habe 94/95 eine RSI-bedingte Verletzung erlitten und nutze seitdem Spracherkennung. Ich möchte eine Lösung, mit der ich Windows verlassen kann. Ich möchte eine Lösung, mit der ich in Firefox, Thunderbird und VS Code problemlos diktieren kann. Am wichtigsten ist die Textbearbeitungs-/Manipulationsfunktion, die Nuance „Select-and-Say“ nannte. Damit sind kleinere Bearbeitungen möglich, das Ersetzen von Sätzen durch neues Diktat usw., und dadurch lässt sich Sprache viel einfacher nutzen als mit nur aufgezeichnetem Diktat, wie bei den meisten Whisper-Apps. Wenn ihr das könnt, bin ich ein Kunde auf Lebenszeit.
So etwas wollte ich für Dateneingabe. Ich habe beim Messen oft alle Hände voll zu tun und muss mir Notizen machen. Kann das tabellarische Daten ausgeben/formatieren?
Das ist wirklich großartig. Ich habe gehofft, dass jemand so etwas baut:
Diktiersoftware ist in der Medizinbranche enorm wichtig. Jeder Arzt nutzt sie, und etwas wie eure Lösung könnte ihre Arbeit viel effizienter machen. Habt ihr dieses Marktsegment schon einmal erkundet?
Das ist erstaunlich! Es fühlt sich extrem gut in der Nutzung an, und die Kombination aus Transkription + Intention scheint enormes Potenzial zu haben.
Ich würde das gerne zum Diktieren von Arztbriefen usw. verwenden. Sind lokale Modelle/HIPAA-Compliance noch weit entfernt?
Glückwunsch zum Launch!
Als jemand mit Neurodivergenz, der mit Text sehr viel besser arbeitet als mit Sprache, liebe ich diese Idee absolut. Mein einziges Feedback ist ... ich würde das gern mit mehr Kontrolle betreiben. Ich lasse bereits LLMs lokal laufen (z. B. LM Studio) und könnte auch Dinge wie Whisper ausführen. Ich verstehe, dass Open-Sourcing (oder das Verfügbar-Machen des Quellcodes) euren Kommerzialisierungsversuchen entgegenstehen könnte. Es könnte jedoch einige Optionen wie bei Red Hat geben, bei denen man für die geschäftliche Nutzung Gebühren erhebt und die lokale Ausführung für private Nutzung kostenlos erlaubt.
Einerseits habt ihr in einem Bereich, von dem viele Menschen profitieren und den viele nutzen können, einen soliden First-Mover-Vorteil, aber jemand könnte vermutlich konkurrenzfähig werden, wenn er mehrere Schichten mehrerer LLM-Ausgaben zusammenkleistert (solche Projekte sind oft Open Source, wenn auch manchmal weniger „poliert“). Wenn ihr ein gutes Angebot macht, könnte es eine große Chance auf Erfolg geben. Viel Glück!
Das ist cool, ich werde wahrscheinlich abonnieren – ich muss nur einige meiner anderen Abos reduzieren – in letzter Zeit gibt es zu viele verlockende AI-Produkte.
Es wird nicht ausdrücklich gesagt, aber ich würde gern wissen, welche Daten in die Cloud gehen – ich nehme an, Sprachaufnahmen inklusive allem? Oder findet STT auf dem Gerät statt? Und wie sieht eure Datenschutz-/Aufbewahrungsrichtlinie für diese Daten aus? Großartige Demo und cooles Produkt!