Issen (YC F24) startet persönlichen KI-Sprachtutor

(news.ycombinator.com)

2 Punkte von GN⁺ 2025-06-28 | 1 Kommentare | Auf WhatsApp teilen

Die App will den im Fremdsprachenlernen oft fehlenden echten Sprechübungen durch einen KI-Sprachtutor ersetzen und so den Aufwand für Terminabstimmung und Tutorensuche reduzieren
Ausgangspunkt war die Erfahrung, dass gute Tools zum Üben des Sprechens auf Japanisch und Französisch schwer zu finden waren; als Hauptprobleme gelten die Stundenkosten menschlicher Tutoren und der Aufwand für Buchungen
Die eigene Voice-AI-Pipeline kombiniert STT, TTS, LLM, Langzeitgedächtnis, Unterbrechungen und Turn-Taking und nutzt Gemini Flash, Whisper, Scribe und GPT-4o-transcribe, um Erkennungsfehler zu reduzieren
Statt Gamification steht immersive Konversation im Fokus; neue Wörter aus AI-Voice-Chats werden in ein Vokabelheft und SRS-Flashcards übernommen
Verfügbar im Web, auf iOS und Android, mit 20 Minuten kostenloser Testphase; der Preis liegt je nach Laufzeit und Region bei 20–29 US-Dollar pro Monat

Welche Sprachlernerfahrung Issen anstrebt

Issen ist eine Voice-Tutor-App, die darauf ausgelegt ist, Fremdsprachenlernende sofort sprechen zu lassen und sie in die Zielsprache eintauchen zu lassen
Menschliche Tutoren können wirksam sein, doch Abrechnung pro Stunde, Terminabstimmung und der Suchaufwand bis zum passenden Tutor werden zur Belastung
Ziel ist es, die tatsächliche Sprechfähigkeit durch realistische vollständige Gespräche zu verbessern, statt durch kurze Quizze oder Punktzahlen
Auf Gamification liegt kein großer Schwerpunkt
- Lange Streaks in der App oder hohe Punktzahlen führen nach Einschätzung der Macher nicht unbedingt zu echter Sprachgewandtheit

Voice-AI-Pipeline und Lernfunktionen

Die App verarbeitet Gespräche über eine eigene Voice-AI-Pipeline
- Sie kombiniert STT, TTS, LLM, Langzeitgedächtnis, Unterbrechungen, Turn-Taking und mehr
- Bei Akzenten der Lernenden, Sätzen mit mehreren gemischten Sprachen und lauten Umgebungen ist es schwierig, die STT-Genauigkeit aufrechtzuerhalten
- Um den Gesprächsfluss zu erhalten, werden Gemini Flash, Whisper, Scribe und GPT-4o-transcribe gemeinsam genutzt
Neue Wörter aus dem AI-Voice-Chat werden mit einem Vokabelheft und SRS-Flashcards verknüpft
- Das dient dazu, Wortschatz und Sprechfähigkeit schnell zu verbessern
Für jede Person wird ein individueller Lehrplan passend zu Zielen, Interessen und Vorlieben erstellt
Einstellungen wie Geschwindigkeit, Turn-Taking und Formalitätsgrad lassen sich anpassen
Eine Demo ist verfügbar
Läuft im Web, auf iOS und Android; nach einer kostenlosen 20-minütigen Testphase kostet es je nach Laufzeit und Region 20–29 US-Dollar pro Monat

1 Kommentare

GN⁺ 2025-06-28

Hacker-News-Kommentare

Ich möchte sagen, dass ich der Ansicht zustimme, dass das Sprachenlernen Innovation braucht.
Ich habe versucht, im Web-App-Griechisch für Anfänger zu lernen, und es war eine bessere Erfahrung als der Sprachmodus von ChatGPT oder Gemini.
Nach etwa 5 Minuten war ich jedoch verwirrt, weil der KI-Tutor weder meinen eigenen Lernplan noch meine Schwierigkeiten zu verstehen schien.
Zum Beispiel fragte er nach meinen Hobbys und sagte mir dann sofort einen langen griechischen Satz übers Bergwandern.
Als absoluter Anfänger konnte ich darauf weder antworten noch den Satz überhaupt wiederholen.
Ich wusste nicht einmal, was ich jetzt tun sollte.
Ein echter Lehrer hätte vermutlich Teile des Satzes wiederholt und übersetzt oder eine Erklärung dazu gegeben.
Der KI-Tutor wartete aber nur darauf, dass ich irgendetwas sage, und entwickelte das Gespräch dann seltsamerweise in Richtung Strandurlaub weiter.
Trotzdem fand ich es besser als bestehende KI-Angebote und plane, es noch einmal zu versuchen.
- Bei Schwedisch hatte ich ein ähnliches Gefühl.
  Es unterscheidet sich nicht stark vom erweiterten Sprachmodus von ChatGPT, und da ich das Gespräch selbst führen muss, wirkt es insgesamt beliebig.
  Am Ende dreht man sich nur um vertraute Themen, wodurch der Übungseffekt eher geringer wird.
  Ich hatte eher einen geführten Lernplan erwartet, der systematischer neue Bereiche und Fähigkeiten erweitert.
- Ich halte Language Transfer für deutlich besseres Sprachlernmaterial als jeden KI-basierten Kurs.
  Menschen haben dort über Jahre hinweg den Lehrplan systematisch aufgebaut, deshalb ist es logischer als alles andere.
  Vor allem der Griechischkurs ist hervorragend, werbefrei und völlig kostenlos.
  Ich kann es mit Überzeugung als das beste Sprachlernwerkzeug empfehlen, das ich je benutzt habe.
  https://www.languagetransfer.org/
- Als ich angab, dass Griechisch meine Muttersprache ist, trat ein Fehler auf und der Onboarding-Guide wurde zurückgesetzt.
  Als ich log, Englisch sei meine Muttersprache, funktionierte alles normal.
  Allerdings wurde ich nicht mit meinem eingegebenen Namen, sondern mit Anton angesprochen.
- Ich hatte den Eindruck, dass die Grenzen der STT->LLM->TTS-Struktur ziemlich deutlich sind.
  Nuancen wie mein Stocken oder meine Unsicherheit gehen beim Umwandeln in Text vollständig verloren.
- Ich hatte einmal ein Memrise-Abo abgeschlossen, um mein Französisch zu verbessern.
  Die skriptbasierten Lektionen waren hervorragend, aber im KI-Konversationsmodus wurden das in den Lektionen gelernte Vokabular und Grammatiken ignoriert, und es wurde mit idiomatischen Ausdrücken gesprochen.
  Dadurch verlor ich schließlich das Interesse und hörte auf, es zu nutzen.
Duolingo war für mich wegen der übertriebenen Gamification völlig unbrauchbar, daher bin ich dankbar, dass diese App davon weniger hat.
Ich frage mich, ob man natürlich zwischen meiner Muttersprache und der Zielsprache wechseln kann und ob es okay ist, während des Gesprächs auf Englisch Fragen zu stellen.
- Ich habe das Gefühl, dass diese Apps auf die Optimierung für die gesamte Nutzermenge ausgerichtet sind und keine auf Einzelne zugeschnittene Erfahrung bieten können.
  Es gibt sogar wissenschaftliche Arbeiten zur globalen Optimierung.
  Lernmetriken oder Content-Produktion sind leicht, aber niemand hat bisher einen Loop gebaut, der wirklich auf einzelne Lernende zugeschnitten ist.
  Selbst bei Duolingo bringt ein Klick auf „Training“ keine Weiterentwicklung, und jedes Mal kommt derselbe Bread and water-Kram.
- Ich möchte betonen, dass wir die mehrsprachige Integration von STT und TTS tatsächlich lange erforscht haben und dass sie bei der Mischung mehrerer Sprachen gut funktioniert.
- Ich finde Babbel besser als Duolingo.
Ich kann TTS beim Sprachenlernen nicht vollständig vertrauen.
Man kann eine falsche Aussprache verinnerlichen, ohne es zu merken.
Im Duolingo-Japanischkurs dachte ich, es seien echte Aufnahmen, aber „oyogu“ klang synthetisch und seltsam, eher wie „oyNHYAOgu“.
Als Anfänger hätte ich Sorge, solche Fehler einfach zu übernehmen.
Natürlich kann man Fehler mit viel immersiver Zeit später korrigieren, aber etwas von Anfang an falsch zu lernen kostet noch mehr Aufwand.
Besonders im Japanischen ist Pitch Accent wichtig, doch viele Materialien und Menschen ignorieren das.
Beispiel: Bei „ima“ unterscheiden sich „jetzt“ und „Wohnzimmer“ je nach Tonhöhe der zweiten Silbe.
Dieses Problem kann bei Sprachen mit vielen sino-japanischen Wörtern noch größer sein.
- Das neue TTS-Modell von Minimax ist ziemlich gut.
  Ich setze diese Stimme bereits bei einigen Japanisch-Tutoren ein, und der Pitch Accent ist fast perfekt.
  Gelegentlich gibt es Kanji- oder Lesefehler, aber wenn sich das Furigana unterscheidet, merkt man es sofort.
- Ich habe den Eindruck, dass japanisches TTS überraschend schwierig ist.
  Ich habe selbst beim Bau einer Sprachlern-App TTS von verschiedenen Anbietern verwendet, darunter 11labs, OpenAI, play.ht, Azure, Google und Polly, und in etwa jeder dritten Aussage gab es einen Fehler.
  Es hat ungefähr eine Woche gedauert, das zu beheben, und jetzt ist es fehlerfrei.
  Dieses Phänomen ist besonders stark im Japanischen; bei den meisten tonalen Sprachen stimmt der Ton immerhin.
  Ob es natürlich klingt, kann ich nicht beurteilen, aber so gravierende Fehlbetonungen wie im Japanischen habe ich sonst nicht erlebt.
- KI-Spracherkennung (Transkription) ist recht gut, und KI-Übersetzung ist je nach Sprachpaar brauchbar.
  Aber TTS ist in den meisten Sprachen qualitativ noch immer unzureichend.
- Ich bin ebenfalls Japanisch-Anfänger und spüre sehr deutlich, wie wichtig Pitch Accent ist.
  Jede Sprache hat eine andere Art, Silben zu betonen.
  Im Spanischen ist es die Vokallänge, im Isländischen die Lautstärke, im Englischen Länge plus Lautstärke, und im Schwedischen bzw. Japanischen ist die Tonhöhe entscheidend.
  Auch im Englischen kann falsche Betonung die Verständigung unmöglich machen.
  Im Japanischen ist das noch spezieller, weil es viele Homophone gibt und sich die Bedeutung je nach Pitch ändert.
  Eine korrekte Tonhöhe ist daher essenziell.
Diese App ist wirklich die beste Erfahrung.
Gespräche mit einer Person aus Argentinien liefen unglaublich natürlich weiter.
Ich habe über 18 Jahre in Buenos Aires gelebt und meine Aussprache und Intonation sind ziemlich gut.
Mir fehlte aber grundlegende Grammatik, wodurch ich viele Lücken hatte, und diese App hat genau solche Punkte präzise ausgebessert.
Beim iOS-UX ist es schade, dass beim Öffnen des Einstellungsmodals der Schließen-Button (CTA) nicht gut sichtbar ist.
Die Farbe des Einstellungsbuttons im geklickten und im inaktiven Zustand ist fast gleich.
Lösung: oben rechts einen X-Schließen-Button hinzufügen und beim Klicken die Farbe ändern.
Falls ihr mehr UX-Feedback wollt, meldet euch gern: visualsitemaps.com
Ich habe versucht, Vietnamesisch zu lernen, aber die Unterrichtsqualität war sehr niedrig und teils sogar falsch.
Dass ein Mann für sich selbst „Anh mệt“ sagen kann, stimmt, aber die Erklärung, „Em mệt“ sei nur für Frauen, ist falsch.
„Anh“ bezeichnet einen älteren Mann, „Em“ wird unabhängig vom Geschlecht für jüngere Personen verwendet.
Viele Frauen möchten in der Praxis jünger wirken und bevorzugen deshalb „Em“, aber auch junge Männer können „Em“ verwenden.
Ein guter Tutor würde den Kontext anhand von Alter und Beziehung erklären.
Es gab auch Fehler, bei denen englische Sätze mit vietnamesischem Akzent gesprochen wurden.
Außerdem wurden mir Sätze gegeben, die weit über meinem Niveau lagen, oder auf meine Anfragen wurde am Thema vorbei reagiert.
Obwohl Südvietnamesisch insgesamt verbreiteter ist, stammen die Tutoren aus Nordvietnam.
Auch die Spracherkennung (STT) ist zu nachsichtig bei falscher Aussprache oder kann Englisch und Vietnamesisch nicht sauber unterscheiden.
Zum Beispiel wurde „Phai“ als „bye“ erkannt.
Ich hatte Hoffnung, weil es viel günstiger ist und man ohne Terminplanung lernen kann, aber es ist schwer, der Genauigkeit zu vertrauen.
Derzeit zahle ich einem vietnamesischen Tutor $20 pro Stunde, insgesamt $160 im Monat.
- Es tut mir leid, dass die Qualität nicht ausreichend war; ich muss dazu sagen, dass ich Vietnamesisch bisher noch nicht testen konnte.
  Danke, dass du die Probleme angesprochen hast.
- Solche Fehler sind ein allgemeiner Typ von Problemen, die bei LLMs häufig auftreten.
  Eine gute Sprachlernplattform ist dringend nötig.
- Schön, einen Mitlernenden für Vietnamesisch zu treffen.
  Ich stimme zu, dass dein Feedback den Kern trifft.
  Ich habe ein Tool gebaut, das beim Üben einfacher Sätze hilft, und würde mich über Feedback freuen: https://envn.app
Ich habe es mit Japanisch ausprobiert und fand es ziemlich frustrierend.
Obwohl ich Anfänger bin, sprach der Tutor nur auf Japanisch mit mir, selbst nachdem ich mehrmals gesagt hatte, dass ich es nicht verstehe.
Auch als ich darum bat, schrittweise vom Englischen ins Japanische zu wechseln, kam nur ein Satz auf Englisch, bevor sofort wieder Japanisch gesprochen wurde.
Für solide Mittelstufe und darüber könnte es als Konversationsübung nützlich sein, aber für absolute Anfänger braucht es noch mehr.
Da das Modell multimodal unterstützt, wäre es gut, visuelle Materialien aktiv zu nutzen.
Es wäre auch hilfreich, aufgezeichnetes Japanisch sofort in Rōmaji anzuzeigen.
- Damit kann ich mich sehr gut identifizieren.
  Ehrlich gesagt liegt der aktuelle Fokus tatsächlich auf Lernenden ab Niveau B1.
  Wenn absolute Anfänger den Schritt von 0 auf 1 brauchen, sind traditionelle Materialien wahrscheinlich besser geeignet, insbesondere solche mit weniger Fokus auf Hören und Sprechen.
Der freihändige Sprachdialogmodus in der mobilen ChatGPT-App ist ziemlich brauchbar.
Ohne Thema wird das Gespräch aber eintönig und bleibt immer bei banalen Dingen hängen.
Deshalb kopiere ich meist einen ganzen Nachrichtenartikel samt zugehörigen Links hinein und sage dann: „Lass uns zu diesem Thema Sprachpraxis machen.“
So übe ich beim einstündigen Spazierengehen auf Spanisch unter realen Bedingungen.
Wenn ich möchte, frage ich ChatGPT nur in meiner Muttersprache und lasse die andere Seite ausschließlich in der Zielsprache antworten, um das Hörverständnis gezielt zu trainieren.
Ich bin neugierig, wie stark Issen diese Erfahrung verbessert hat.
- Ich bin ebenfalls von einem ähnlichen Punkt ausgegangen.
  Auch die Fortschritte bei Sprachmodellen sind sehr schnell.
  Ich habe das Gefühl, dass es eine auf Sprachenlernen spezialisierte Gesamterfahrung braucht, mit personalisiertem Curriculum, Prompts, KI-Modellen für präzise Erkennung, Flashcards/Wörterbuch und mehr.
  Es gibt einen Hands-free-Modus, und verschiedene Faktoren wie Slang, Sprechgeschwindigkeit und Anteil der Zielsprache lassen sich anpassen.
Ich habe auf Russisch geübt, und die Übung selbst war gut, aber was allen Sprachlern-Apps gemeinsam fehlt, ist eine Funktion, die meine Aussprachefehler erkennt und korrigiert.
Selbst wenn ich nur ungefähr ähnlich spreche, lässt die automatische Erkennung (STT) es durchgehen.
Ich hoffe auf eine Zeit, in der KI meine tatsächliche Aussprache wirklich „hört“ und präzise jeden Fehler erfasst.
Aktuell werden nicht nur Akzentprobleme, sondern auch Kasusendungen und Wortakzent nicht erkannt.
Wenn die KI etwas mit korrekter Intonation oder Form zurückspricht, hilft das zwar bei der Korrektur, aber es gibt nicht das Vertrauen, das ein echter menschlicher Lehrer vermittelt.
Produktvorschlag: eine Funktion, mit der sich die Transkription (Untertitel) ausschalten lässt.
Vor allem in manchen Sprachen kann sichtbarer Text eher stören oder für Anfänger zu einer Abkürzung werden.
Und zuletzt wären etwas stärker zielgerichtete Gesprächsstrukturen viel spannender als beliebige, richtungslose Unterhaltungen wie „Was findest du an KI am interessantesten?“.
Auch ohne Gamification könnte man Debattenformate einbauen wie „Überzeuge mich von diesem Thema!“ oder Gespräche, die konkrete Erfahrungen aufgreifen wie „Was ist dein wichtigstes berufliches Ziel in diesem Jahr?“, um echte Meinungen und Erfahrungen hervorzulocken.
Ich glaube, das ist das erste Produkt dieser Art, das ich tatsächlich verwenden würde; großes Lob.
- Ich finde die Idee einer Überzeugungs-/Debattenclub-Lektion ebenfalls sehr gut.
  Sobald Voice-to-Voice-Modelle ausgereift sind, bin ich wirklich gespannt.
  Auch bei OpenAI/Gemini gibt es große Fortschritte, und wir planen, das bald zu übernehmen.
Ich frage mich, warum das Video nach dem ersten Abspielen gesperrt ist und man sich dann einloggen muss, um es weiterzusehen.
Ich habe das Feedback gesehen, dass diese App auf B1 und höher abzielt, aber das Demo-Video zeigt Verschiedenes von A1 bis C1.
Nutzer, die den gesamten Bereich von A1 bis C1 brauchen, sind selten; für jede Stufe gibt es einen klar getrennten Markt, daher wäre mehr Differenzierung nötig.
Das französische TTS klingt weniger natürlich als die Standardstimme von ChatGPT.
Wenn es je nach Nutzerlevel Aufgaben per One-Click gäbe, etwa Nachrichten lesen und diskutieren oder Nuancen und Schlussfolgerungen besprechen, wäre das vermutlich sehr beliebt.
Vor allem merken viele Nutzer gar nicht, dass es ihrer eigenen Rede an Kohäsion fehlt; eine Struktur, die genau diese Fähigkeit als Kern von threshold proficiency sichtbar macht, wäre sehr hilfreich.
Gut gemachte App, ich habe sie bereits etwa zehn Leuten in meinem Umfeld empfohlen.
Ein paar Fragen:

Laut LinkedIn gibt es nur zwei Mitarbeitende; wie habt ihr bei so vielen Sprachen QA gemacht?
Urdu funktionierte ziemlich gut, aber warum gibt es nur eine weibliche Stimme und keine männliche?
Das Sesame-Team ist größer, aber ich würde gern die Sicht des Entwicklers hören, warum die Stimme von Sesame so natürlich wie eine echte Person klingt (ich erkenne an, dass das eine viel größere Herausforderung ist als bei Sesame ohne Mehrsprachigkeit).
- Danke für das Lob.
  Wir testen und optimieren vor allem die beliebtesten Sprachen.
  Sprachen mit vielen Problemen haben wir auf Basis des Nutzerfeedbacks tatsächlich entfernt, und es gibt auch Sprachen, die wir noch nicht gründlich prüfen konnten.
  Welche Stimmen verfügbar sind, hängt von der Qualität der TTS-Dienste wie Openi, 11labs, minimax usw. ab.
  Bei manchen Diensten gibt es keine männlichen Stimmen oder nur gute weibliche Stimmen.
  Wir planen, künftig mehr verschiedene Stimmen hinzuzufügen.
  Bei Sesame kann man die echte Stimme des Nutzers in TTS einspeisen, sodass sie zur eigenen Wirkung und Stimmung passt; wir verwenden derzeit noch nur ursprüngliches, also vorkonfiguriertes TTS.
  Sesame hat außerdem extrem geringe Latenz, was fürs Sprachenlernen eher ein Nachteil ist.
  Langfristig wollen wir eine Erfahrung auf Basis ausgereifter Speech-to-Speech-Modelle anbieten.

Issen (YC F24) startet persönlichen KI-Sprachtutor

Welche Sprachlernerfahrung Issen anstrebt

Voice-AI-Pipeline und Lernfunktionen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare