4 Punkte von GN⁺ 2025-10-31 | 1 Kommentare | Auf WhatsApp teilen
  • Die Cochlea verarbeitet Schall, indem sie durch Luftdruckänderungen verursachte Schwingungen über eine physische Struktur, die nach Frequenzen trennt, aufnimmt
  • Jede Position der Basilarmembran resoniert mit einer bestimmten Frequenz; hohe Frequenzen werden an der steifen Basis, niedrige Frequenzen am flexiblen Endbereich verarbeitet
  • Dabei öffnen und schließen Haarzellen abhängig von der Schwingung Ionenkanäle und wandeln sie in elektrische Signale um; Nervenfasern filtern Zeit- und Frequenzinformationen
  • Diese Filter erhalten jedoch im Gegensatz zur Fourier-Transformation die zeitliche Auflösung und arbeiten tatsächlich in einer Form zwischen Wavelet und Gabor
  • Diese Struktur ist eine Strategie der effizienten Kodierung, die redundante Informationen in natürlichen Klängen reduziert; die menschliche Sprache besetzt dabei einen einzigartigen Zeit-Frequenz-Raum

Die frequenztrennende Struktur der Cochlea

  • Das Trommelfell schwingt entsprechend den Luftdruckänderungen, und die Gehörknöchelchen im Mittelohr verstärken dies und leiten es an die Flüssigkeit der Cochlea weiter
    • Die Schwingung wandert entlang der Basilarmembran und resoniert je nach physikalischen Eigenschaften der jeweiligen Position mit einer bestimmten Frequenz
    • Die Basis ist steif und leicht und reagiert auf hohe Frequenzen, der Endbereich ist flexibel und schwer und reagiert auf niedrige Frequenzen
  • Die Resonanzfrequenz der Basilarmembran nimmt räumlich logarithmisch ab
    • Das stimmt mit der Eigenschaft überein, dass sich die menschliche Tonhöhenwahrnehmung logarithmisch verändert

Mechanisch-elektrische Umwandlung der Haarzellen

  • Die Haarzellen auf der Basilarmembran schwingen passend zur Frequenz ihrer Position, und diese Bewegung bewirkt das Öffnen und Schließen von Ionenkanälen
    • Die federartige Struktur an den Enden der Haarzellen arbeitet wie eine „trapdoor“ und setzt passend zur Schwingungsfrequenz Neurotransmitter frei
  • Auf diese Weise werden mechanische Schwingungen in elektrische Signale umgewandelt und an den Hörnerv weitergeleitet

Hörfilter und Zeit-Frequenz-Auflösung

  • Die Fasern des Hörnervs arbeiten als Filter, die Zeit- und Frequenzinformationen extrahieren
    • Auf kurze Zeitfenster konzentrierte Filter haben eine hohe zeitliche Auflösung, aber eine ungleichmäßige Frequenzverteilung
    • Filter über längere Zeiträume haben eine hohe Frequenzauflösung, aber unscharfere Zeitinformation
  • Die Fourier-Transformation enthält keine Zeitinformation und hat wie in der rechten Abbildung eine gleichmäßige Frequenzverteilung, unterscheidet sich damit aber von den tatsächlichen Filtern des Ohrs
  • Die Filter der Cochlea haben eine Zwischenform aus Wavelet- und Gabor-Filtern, wobei sie
    • im Hochfrequenzbereich die zeitliche Auflösung erhöhen und
    • im Tieffrequenzbereich die Frequenzauflösung erhöhen, also eine gegenseitig ausgleichende Struktur besitzen

Effiziente Kodierung und Analyse natürlicher Klänge

  • Die Studie von Lewicki (2002) zeigt, dass diese Filterstruktur eine Strategie zur Reduktion von Redundanz in natürlichen Klängen ist
    • Mithilfe von ICA (Independent Component Analysis) zur Maximierung der Unabhängigkeit wurden Umweltgeräusche, Tierlaute und menschliche Sprache verglichen
    • Für Umweltgeräusche und menschliche Sprache ergaben sich Wavelet-artige Filter, Tierlaute lagen näher an Fourier-artigen Filtern
  • Die menschliche Sprache besetzt einen eigenständigen Zeit-Frequenz-Raum, und
    • einige Forschende erwähnen die Möglichkeit, dass Sprache sich so entwickelt haben könnte, dass sie Bereiche füllt, die von bestehenden natürlichen Klängen nicht besetzt waren

Ökologische Kodierung und sensorische Verarbeitung

  • Sinnesysteme formen an die Umwelt angepasste Kodierungsweisen, und das Hören wird hier als Beispiel angeführt
    • Diese ökologisch relevante Repräsentation basiert auf der Wechselwirkung zwischen Verhalten und Umwelt
  • Am Ende des Textes wird angekündigt, dass der Fokus in späteren Vorlesungen auf biophysikalischen Berechnungen auf Neuronenebene verlagert wird
  • Insgesamt arbeitet das Ohr nicht als Fourier-Transformation, sondern als effizientes und adaptives Filtersystem

1 Kommentare

 
GN⁺ 2025-10-31
Hacker-News-Kommentare
  • Kurz gesagt: Das Ohr führt keine Fourier-Transformation aus, sondern eine zeitlich lokalisierte Frequenztransformation irgendwo zwischen Wavelet- und Gabor-Transformation
    Das liegt daran, dass Schall zeitlich lokalisiert ist
    Außerdem wird die Theorie vorgestellt, dass sich die menschliche Sprache so entwickelt hat, dass sie einen zuvor leeren Bereich im Raum aus Frequenz, Hüllkurve und Dauer besetzt
    Es ist möglich, dass die menschliche Cochlea für die menschliche Stimme optimiert ist

    • Dieser Text wirkt, als würde er ein ziemliches Strohmannargument aufbauen
      Niemand mit Kenntnissen in der Signalverarbeitung behauptet, dass das Ohr eine Fourier-Transformation über unendliche Zeit ausführt
      Das Ohr macht im Wesentlichen etwas Ähnliches wie eine FFT (Fast Fourier Transform), also die Berechnung der Intensität je Frequenz
      Wavelet- oder Gabor-Transformationen unterscheiden sich mathematisch, liefern aber letztlich zu 95–99 % dieselben Ergebnisse
      Vereinfacht gesagt kann man also annehmen, dass das Ohr eine fensterbehaftete diskrete Fourier-Transformation ausführt
    • Bei hohen Frequenzen wird für eine bessere Zeitauflösung Frequenzauflösung geopfert, bei niedrigen Frequenzen umgekehrt
      Das lässt sich durch das Zeit-Frequenz-Unschärfeprinzip erklären
      Es ist leichter verständlich, die Filterbank des Ohrs als beliebige Menge von Filtern zu betrachten, die auf physiologischen Ergebnissen basiert
      Auch die Größe des Tieres spielt eine Rolle — je kleiner das Tier, desto eher kann es im Ultraschallbereich Laute erzeugen und hören
    • Wenn die Eigenschaften der menschlichen Cochlea auf die menschliche Stimme abgestimmt sind, könnte man das vielleicht beim Sound-Mastering von Dialogen in Filmen oder im Fernsehen nutzen, damit Sprache besser verständlich ist
    • Man fragt sich auch, ob man nicht ein ganzes Leben warten müsste, wenn das Ohr tatsächlich eine Fourier-Transformation ausführen würde. Da wir Schall in Echtzeit hören, ist offensichtlich, dass das nicht der Fall ist
    • Denkt man das weiter, dann besetzen bestimmte Wörter und Phoneme wohl bestimmte Bereiche im Raum des Frequenz-Zeit-Trade-offs
      Zum Beispiel liegen ein Warnruf wie „Ein Tiger greift an“ und beruhigende Laute für ein Baby in unterschiedlichen Bereichen
  • Der Titel ist etwas clickbaitig, und der Inhalt ist streng genommen auch falsch
    Gabor- oder Wavelet-Transformationen sind verallgemeinerte Formen der Fourier-Transformation und liefern spektrale Analysen über die Zeit
    Das Ohr macht tatsächlich etwas sehr Fourier-artiges

    • Dass es clickbaitig ist, sehe ich auch so, aber streng genommen ist es nicht falsch
      Die Fourier-Transformation ist unendlich und kontinuierlich, die DFT ist endlich und diskret
      Das menschliche Hören liegt irgendwo dazwischen und ist eher mit einer Fourier-Reihe vergleichbar
      Wavelets sind wiederum ein anderer Ansatz, bei dem statt Sinuswellen verformte Wellenformen verwendet werden
      Im Alltagsverständnis führt das Ohr letztlich eine „Fourier-artige“ Verarbeitung aus
    • Dieser Text ist ein Journal-Club-Beitrag eines Graduiertenstudenten, der die Lewicki-2002-Arbeit vorgestellt hat
      Im Abstract der Arbeit steht ausdrücklich, dass die Optimierung für Tierlaute zu etwas Fourier-Ähnlichem führt, während die Optimierung für unbelebte Umgebungsgeräusche zu etwas Wavelet-Ähnlichem führt
  • Wer tiefer einsteigen möchte, sollte sich das CARFAC-Modell von Richard Lyon (Cascade of Asymmetric Resonators with Fast-Acting Compression) ansehen
    Es gilt als eine der genauesten digitalen Modellierungen des menschlichen Hörens
    Das PDF seines Buches gibt es hier

    • Großartige Quelle. Danke
  • Die These, dass die menschliche Stimme weniger dicht besetzte Spektralbereiche einnimmt, passt auch zu dem Buch „The Great Animal Orchestra“
    Buchlink
    Darin geht es darum, dass verschiedene Arten sich so entwickelt haben, dass sie jeweils ihre eigene akustische Nische besetzen
    Etwas bedrückend ist allerdings, dass dieser Effekt durch die Zerstörung von Lebensräumen schwächer wird

    • Auch Vögel haben sich so entwickelt, dass sie Zeitfenster wählen, in denen sie besser hörbar sind
      In Städten singen sie früh, bevor der Verkehrslärm einsetzt, und im Wald später, wenn der Lärm von Insekten abnimmt
    • Wenn evolutionäre Merkmale verschwinden, die in der Natur Wettbewerbsvorteile brachten, werden sie durch Merkmale ersetzt, die besser zur städtischen Umwelt passen
      Statt räumlicher Vielfalt könnte sich auch zeitliche Vielfalt herausbilden
  • Es gibt zwar begriffliche Verwirrung, aber die Fourier-Transformation setzt ein unendliches Zeitintervall voraus
    Für endliche Zeitintervalle ist Fourier-Reihe der genauere Ausdruck
    Die tatsächliche Funktionsweise des Ohrs liegt dazwischen und arbeitet mit einer zeitlichen Gewichtungsfunktion
    Der Text trifft diesen Punkt gut

    • Letztlich führt das Ohr nicht eine einzige Fourier-Transformation aus, sondern mehrere Transformationen mit einem Trade-off zwischen Zeit- und Frequenzauflösung
      Es ist auch möglich, dass sich menschliche Sprache und Hörstruktur koevolutionär entwickelt haben
    • Der Titel ist etwas provokant, aber interessant ist, dass er die detaillierte physiologische Umsetzung des menschlichen Hörens gut behandelt, etwa den Transduktionsmechanismus der Cochlea-Haarzellen
  • Das Ohr führt keine Fourier-Transformation über unendliche Zeit aus
    Stattdessen führt es diskrete, fensterbehaftete Transformationen aus, was dem Unschärfeprinzip zwischen Zeit- und Frequenzauflösung ähnelt
    Lange Fenster erhöhen die Frequenzauflösung und senken die Zeitauflösung, kurze Fenster machen das Gegenteil
    Die menschliche Cochlea arbeitet so, dass sie bei tiefen Frequenzen die Frequenzauflösung erhöht, um Formanten zu unterscheiden, und bei hohen Frequenzen die Zeitauflösung erhöht, um Plosive zu erkennen

    • Gemeint war wohl nicht das „Pauli-Ausschlussprinzip“, sondern das Heisenbergsche Unschärfeprinzip
    • Das Ohr nimmt keine Datensamples, sondern arbeitet als kontinuierlicher mechanischer Prozess
    • Wenn man an die STFT (Short-Time Fourier Transform) denkt, ist das leichter zu verstehen
  • Die Basilarmembran ist eine erstaunliche biologische Struktur
    In der Computer-Audioverarbeitung ist die FFT nützlich, aber für die Modellierung des menschlichen Hörens auf Basis der zeitlichen Wahrnehmung hat sie Grenzen

  • Das Video über Tip Links und Ionenkanäle der Haarzellen ist faszinierend
    Zugehöriges Video
    Wenn diese Struktur beschädigt wird, kann Tinnitus entstehen
    Außerdem verfügt das Ohr über aktive Verstärkung, sodass sich Zellen auch durch elektrische Signale in Schwingung versetzen lassen

  • Das obige Video endet mit einem sehr hohen Ton, daher ist Vorsicht geboten, wenn man Kopfhörer trägt

  • Da der auditorische Assoziationskortex im Parietallappen Frequenzen unterscheidet, gibt es zwischen Ohr und Gehirn eine Zeit-Frequenz-Transformation
    Da das Feuern von Neuronen diskret ist, handelt es sich um eine diskrete Transformation innerhalb endlicher Zeit
    Eine einfache Methode, ein endliches Signal auf ein unendliches zu erweitern, besteht darin anzunehmen, dass es sich in Vergangenheit und Zukunft unendlich wiederholt