Das Ohr führt keine Fourier-Transformation aus (2024)

(dissonances.blog)

4 Punkte von GN⁺ 2025-10-31 | 1 Kommentare | Auf WhatsApp teilen

Die Cochlea verarbeitet Schall, indem sie durch Luftdruckänderungen verursachte Schwingungen über eine physische Struktur, die nach Frequenzen trennt, aufnimmt
Jede Position der Basilarmembran resoniert mit einer bestimmten Frequenz; hohe Frequenzen werden an der steifen Basis, niedrige Frequenzen am flexiblen Endbereich verarbeitet
Dabei öffnen und schließen Haarzellen abhängig von der Schwingung Ionenkanäle und wandeln sie in elektrische Signale um; Nervenfasern filtern Zeit- und Frequenzinformationen
Diese Filter erhalten jedoch im Gegensatz zur Fourier-Transformation die zeitliche Auflösung und arbeiten tatsächlich in einer Form zwischen Wavelet und Gabor
Diese Struktur ist eine Strategie der effizienten Kodierung, die redundante Informationen in natürlichen Klängen reduziert; die menschliche Sprache besetzt dabei einen einzigartigen Zeit-Frequenz-Raum

Die frequenztrennende Struktur der Cochlea

Das Trommelfell schwingt entsprechend den Luftdruckänderungen, und die Gehörknöchelchen im Mittelohr verstärken dies und leiten es an die Flüssigkeit der Cochlea weiter
- Die Schwingung wandert entlang der Basilarmembran und resoniert je nach physikalischen Eigenschaften der jeweiligen Position mit einer bestimmten Frequenz
- Die Basis ist steif und leicht und reagiert auf hohe Frequenzen, der Endbereich ist flexibel und schwer und reagiert auf niedrige Frequenzen
Die Resonanzfrequenz der Basilarmembran nimmt räumlich logarithmisch ab
- Das stimmt mit der Eigenschaft überein, dass sich die menschliche Tonhöhenwahrnehmung logarithmisch verändert

Mechanisch-elektrische Umwandlung der Haarzellen

Die Haarzellen auf der Basilarmembran schwingen passend zur Frequenz ihrer Position, und diese Bewegung bewirkt das Öffnen und Schließen von Ionenkanälen
- Die federartige Struktur an den Enden der Haarzellen arbeitet wie eine „trapdoor“ und setzt passend zur Schwingungsfrequenz Neurotransmitter frei
Auf diese Weise werden mechanische Schwingungen in elektrische Signale umgewandelt und an den Hörnerv weitergeleitet

Hörfilter und Zeit-Frequenz-Auflösung

Die Fasern des Hörnervs arbeiten als Filter, die Zeit- und Frequenzinformationen extrahieren
- Auf kurze Zeitfenster konzentrierte Filter haben eine hohe zeitliche Auflösung, aber eine ungleichmäßige Frequenzverteilung
- Filter über längere Zeiträume haben eine hohe Frequenzauflösung, aber unscharfere Zeitinformation
Die Fourier-Transformation enthält keine Zeitinformation und hat wie in der rechten Abbildung eine gleichmäßige Frequenzverteilung, unterscheidet sich damit aber von den tatsächlichen Filtern des Ohrs
Die Filter der Cochlea haben eine Zwischenform aus Wavelet- und Gabor-Filtern, wobei sie
- im Hochfrequenzbereich die zeitliche Auflösung erhöhen und
- im Tieffrequenzbereich die Frequenzauflösung erhöhen, also eine gegenseitig ausgleichende Struktur besitzen

Effiziente Kodierung und Analyse natürlicher Klänge

Die Studie von Lewicki (2002) zeigt, dass diese Filterstruktur eine Strategie zur Reduktion von Redundanz in natürlichen Klängen ist
- Mithilfe von ICA (Independent Component Analysis) zur Maximierung der Unabhängigkeit wurden Umweltgeräusche, Tierlaute und menschliche Sprache verglichen
- Für Umweltgeräusche und menschliche Sprache ergaben sich Wavelet-artige Filter, Tierlaute lagen näher an Fourier-artigen Filtern
Die menschliche Sprache besetzt einen eigenständigen Zeit-Frequenz-Raum, und
- einige Forschende erwähnen die Möglichkeit, dass Sprache sich so entwickelt haben könnte, dass sie Bereiche füllt, die von bestehenden natürlichen Klängen nicht besetzt waren

Ökologische Kodierung und sensorische Verarbeitung

Sinnesysteme formen an die Umwelt angepasste Kodierungsweisen, und das Hören wird hier als Beispiel angeführt
- Diese ökologisch relevante Repräsentation basiert auf der Wechselwirkung zwischen Verhalten und Umwelt
Am Ende des Textes wird angekündigt, dass der Fokus in späteren Vorlesungen auf biophysikalischen Berechnungen auf Neuronenebene verlagert wird
Insgesamt arbeitet das Ohr nicht als Fourier-Transformation, sondern als effizientes und adaptives Filtersystem

1 Kommentare

GN⁺ 2025-10-31

Hacker-News-Kommentare

Kurz gesagt: Das Ohr führt keine Fourier-Transformation aus, sondern eine zeitlich lokalisierte Frequenztransformation irgendwo zwischen Wavelet- und Gabor-Transformation
Das liegt daran, dass Schall zeitlich lokalisiert ist
Außerdem wird die Theorie vorgestellt, dass sich die menschliche Sprache so entwickelt hat, dass sie einen zuvor leeren Bereich im Raum aus Frequenz, Hüllkurve und Dauer besetzt
Es ist möglich, dass die menschliche Cochlea für die menschliche Stimme optimiert ist
- Dieser Text wirkt, als würde er ein ziemliches Strohmannargument aufbauen
  Niemand mit Kenntnissen in der Signalverarbeitung behauptet, dass das Ohr eine Fourier-Transformation über unendliche Zeit ausführt
  Das Ohr macht im Wesentlichen etwas Ähnliches wie eine FFT (Fast Fourier Transform), also die Berechnung der Intensität je Frequenz
  Wavelet- oder Gabor-Transformationen unterscheiden sich mathematisch, liefern aber letztlich zu 95–99 % dieselben Ergebnisse
  Vereinfacht gesagt kann man also annehmen, dass das Ohr eine fensterbehaftete diskrete Fourier-Transformation ausführt
- Bei hohen Frequenzen wird für eine bessere Zeitauflösung Frequenzauflösung geopfert, bei niedrigen Frequenzen umgekehrt
  Das lässt sich durch das Zeit-Frequenz-Unschärfeprinzip erklären
  Es ist leichter verständlich, die Filterbank des Ohrs als beliebige Menge von Filtern zu betrachten, die auf physiologischen Ergebnissen basiert
  Auch die Größe des Tieres spielt eine Rolle — je kleiner das Tier, desto eher kann es im Ultraschallbereich Laute erzeugen und hören
- Wenn die Eigenschaften der menschlichen Cochlea auf die menschliche Stimme abgestimmt sind, könnte man das vielleicht beim Sound-Mastering von Dialogen in Filmen oder im Fernsehen nutzen, damit Sprache besser verständlich ist
- Man fragt sich auch, ob man nicht ein ganzes Leben warten müsste, wenn das Ohr tatsächlich eine Fourier-Transformation ausführen würde. Da wir Schall in Echtzeit hören, ist offensichtlich, dass das nicht der Fall ist
- Denkt man das weiter, dann besetzen bestimmte Wörter und Phoneme wohl bestimmte Bereiche im Raum des Frequenz-Zeit-Trade-offs
  Zum Beispiel liegen ein Warnruf wie „Ein Tiger greift an“ und beruhigende Laute für ein Baby in unterschiedlichen Bereichen
Der Titel ist etwas clickbaitig, und der Inhalt ist streng genommen auch falsch
Gabor- oder Wavelet-Transformationen sind verallgemeinerte Formen der Fourier-Transformation und liefern spektrale Analysen über die Zeit
Das Ohr macht tatsächlich etwas sehr Fourier-artiges
- Dass es clickbaitig ist, sehe ich auch so, aber streng genommen ist es nicht falsch
  Die Fourier-Transformation ist unendlich und kontinuierlich, die DFT ist endlich und diskret
  Das menschliche Hören liegt irgendwo dazwischen und ist eher mit einer Fourier-Reihe vergleichbar
  Wavelets sind wiederum ein anderer Ansatz, bei dem statt Sinuswellen verformte Wellenformen verwendet werden
  Im Alltagsverständnis führt das Ohr letztlich eine „Fourier-artige“ Verarbeitung aus
- Dieser Text ist ein Journal-Club-Beitrag eines Graduiertenstudenten, der die Lewicki-2002-Arbeit vorgestellt hat
  Im Abstract der Arbeit steht ausdrücklich, dass die Optimierung für Tierlaute zu etwas Fourier-Ähnlichem führt, während die Optimierung für unbelebte Umgebungsgeräusche zu etwas Wavelet-Ähnlichem führt
Wer tiefer einsteigen möchte, sollte sich das CARFAC-Modell von Richard Lyon (Cascade of Asymmetric Resonators with Fast-Acting Compression) ansehen
Es gilt als eine der genauesten digitalen Modellierungen des menschlichen Hörens
Das PDF seines Buches gibt es hier
- Großartige Quelle. Danke
Die These, dass die menschliche Stimme weniger dicht besetzte Spektralbereiche einnimmt, passt auch zu dem Buch „The Great Animal Orchestra“
Buchlink
Darin geht es darum, dass verschiedene Arten sich so entwickelt haben, dass sie jeweils ihre eigene akustische Nische besetzen
Etwas bedrückend ist allerdings, dass dieser Effekt durch die Zerstörung von Lebensräumen schwächer wird
- Auch Vögel haben sich so entwickelt, dass sie Zeitfenster wählen, in denen sie besser hörbar sind
  In Städten singen sie früh, bevor der Verkehrslärm einsetzt, und im Wald später, wenn der Lärm von Insekten abnimmt
- Wenn evolutionäre Merkmale verschwinden, die in der Natur Wettbewerbsvorteile brachten, werden sie durch Merkmale ersetzt, die besser zur städtischen Umwelt passen
  Statt räumlicher Vielfalt könnte sich auch zeitliche Vielfalt herausbilden
Es gibt zwar begriffliche Verwirrung, aber die Fourier-Transformation setzt ein unendliches Zeitintervall voraus
Für endliche Zeitintervalle ist Fourier-Reihe der genauere Ausdruck
Die tatsächliche Funktionsweise des Ohrs liegt dazwischen und arbeitet mit einer zeitlichen Gewichtungsfunktion
Der Text trifft diesen Punkt gut
- Letztlich führt das Ohr nicht eine einzige Fourier-Transformation aus, sondern mehrere Transformationen mit einem Trade-off zwischen Zeit- und Frequenzauflösung
  Es ist auch möglich, dass sich menschliche Sprache und Hörstruktur koevolutionär entwickelt haben
- Der Titel ist etwas provokant, aber interessant ist, dass er die detaillierte physiologische Umsetzung des menschlichen Hörens gut behandelt, etwa den Transduktionsmechanismus der Cochlea-Haarzellen
Das Ohr führt keine Fourier-Transformation über unendliche Zeit aus
Stattdessen führt es diskrete, fensterbehaftete Transformationen aus, was dem Unschärfeprinzip zwischen Zeit- und Frequenzauflösung ähnelt
Lange Fenster erhöhen die Frequenzauflösung und senken die Zeitauflösung, kurze Fenster machen das Gegenteil
Die menschliche Cochlea arbeitet so, dass sie bei tiefen Frequenzen die Frequenzauflösung erhöht, um Formanten zu unterscheiden, und bei hohen Frequenzen die Zeitauflösung erhöht, um Plosive zu erkennen
- Gemeint war wohl nicht das „Pauli-Ausschlussprinzip“, sondern das Heisenbergsche Unschärfeprinzip
- Das Ohr nimmt keine Datensamples, sondern arbeitet als kontinuierlicher mechanischer Prozess
- Wenn man an die STFT (Short-Time Fourier Transform) denkt, ist das leichter zu verstehen
Die Basilarmembran ist eine erstaunliche biologische Struktur
In der Computer-Audioverarbeitung ist die FFT nützlich, aber für die Modellierung des menschlichen Hörens auf Basis der zeitlichen Wahrnehmung hat sie Grenzen
Das Video über Tip Links und Ionenkanäle der Haarzellen ist faszinierend
Zugehöriges Video
Wenn diese Struktur beschädigt wird, kann Tinnitus entstehen
Außerdem verfügt das Ohr über aktive Verstärkung, sodass sich Zellen auch durch elektrische Signale in Schwingung versetzen lassen
Das obige Video endet mit einem sehr hohen Ton, daher ist Vorsicht geboten, wenn man Kopfhörer trägt
Da der auditorische Assoziationskortex im Parietallappen Frequenzen unterscheidet, gibt es zwischen Ohr und Gehirn eine Zeit-Frequenz-Transformation
Da das Feuern von Neuronen diskret ist, handelt es sich um eine diskrete Transformation innerhalb endlicher Zeit
Eine einfache Methode, ein endliches Signal auf ein unendliches zu erweitern, besteht darin anzunehmen, dass es sich in Vergangenheit und Zukunft unendlich wiederholt

Das Ohr führt keine Fourier-Transformation aus (2024)

Die frequenztrennende Struktur der Cochlea

Mechanisch-elektrische Umwandlung der Haarzellen

Hörfilter und Zeit-Frequenz-Auflösung

Effiziente Kodierung und Analyse natürlicher Klänge

Ökologische Kodierung und sensorische Verarbeitung

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare