- Die Cochlea verarbeitet Schall, indem sie durch Luftdruckänderungen verursachte Schwingungen über eine physische Struktur, die nach Frequenzen trennt, aufnimmt
- Jede Position der Basilarmembran resoniert mit einer bestimmten Frequenz; hohe Frequenzen werden an der steifen Basis, niedrige Frequenzen am flexiblen Endbereich verarbeitet
- Dabei öffnen und schließen Haarzellen abhängig von der Schwingung Ionenkanäle und wandeln sie in elektrische Signale um; Nervenfasern filtern Zeit- und Frequenzinformationen
- Diese Filter erhalten jedoch im Gegensatz zur Fourier-Transformation die zeitliche Auflösung und arbeiten tatsächlich in einer Form zwischen Wavelet und Gabor
- Diese Struktur ist eine Strategie der effizienten Kodierung, die redundante Informationen in natürlichen Klängen reduziert; die menschliche Sprache besetzt dabei einen einzigartigen Zeit-Frequenz-Raum
Die frequenztrennende Struktur der Cochlea
- Das Trommelfell schwingt entsprechend den Luftdruckänderungen, und die Gehörknöchelchen im Mittelohr verstärken dies und leiten es an die Flüssigkeit der Cochlea weiter
- Die Schwingung wandert entlang der Basilarmembran und resoniert je nach physikalischen Eigenschaften der jeweiligen Position mit einer bestimmten Frequenz
- Die Basis ist steif und leicht und reagiert auf hohe Frequenzen, der Endbereich ist flexibel und schwer und reagiert auf niedrige Frequenzen
- Die Resonanzfrequenz der Basilarmembran nimmt räumlich logarithmisch ab
- Das stimmt mit der Eigenschaft überein, dass sich die menschliche Tonhöhenwahrnehmung logarithmisch verändert
Mechanisch-elektrische Umwandlung der Haarzellen
- Die Haarzellen auf der Basilarmembran schwingen passend zur Frequenz ihrer Position, und diese Bewegung bewirkt das Öffnen und Schließen von Ionenkanälen
- Die federartige Struktur an den Enden der Haarzellen arbeitet wie eine „trapdoor“ und setzt passend zur Schwingungsfrequenz Neurotransmitter frei
- Auf diese Weise werden mechanische Schwingungen in elektrische Signale umgewandelt und an den Hörnerv weitergeleitet
Hörfilter und Zeit-Frequenz-Auflösung
- Die Fasern des Hörnervs arbeiten als Filter, die Zeit- und Frequenzinformationen extrahieren
- Auf kurze Zeitfenster konzentrierte Filter haben eine hohe zeitliche Auflösung, aber eine ungleichmäßige Frequenzverteilung
- Filter über längere Zeiträume haben eine hohe Frequenzauflösung, aber unscharfere Zeitinformation
- Die Fourier-Transformation enthält keine Zeitinformation und hat wie in der rechten Abbildung eine gleichmäßige Frequenzverteilung, unterscheidet sich damit aber von den tatsächlichen Filtern des Ohrs
- Die Filter der Cochlea haben eine Zwischenform aus Wavelet- und Gabor-Filtern, wobei sie
- im Hochfrequenzbereich die zeitliche Auflösung erhöhen und
- im Tieffrequenzbereich die Frequenzauflösung erhöhen, also eine gegenseitig ausgleichende Struktur besitzen
Effiziente Kodierung und Analyse natürlicher Klänge
- Die Studie von Lewicki (2002) zeigt, dass diese Filterstruktur eine Strategie zur Reduktion von Redundanz in natürlichen Klängen ist
- Mithilfe von ICA (Independent Component Analysis) zur Maximierung der Unabhängigkeit wurden Umweltgeräusche, Tierlaute und menschliche Sprache verglichen
- Für Umweltgeräusche und menschliche Sprache ergaben sich Wavelet-artige Filter, Tierlaute lagen näher an Fourier-artigen Filtern
- Die menschliche Sprache besetzt einen eigenständigen Zeit-Frequenz-Raum, und
- einige Forschende erwähnen die Möglichkeit, dass Sprache sich so entwickelt haben könnte, dass sie Bereiche füllt, die von bestehenden natürlichen Klängen nicht besetzt waren
Ökologische Kodierung und sensorische Verarbeitung
- Sinnesysteme formen an die Umwelt angepasste Kodierungsweisen, und das Hören wird hier als Beispiel angeführt
- Diese ökologisch relevante Repräsentation basiert auf der Wechselwirkung zwischen Verhalten und Umwelt
- Am Ende des Textes wird angekündigt, dass der Fokus in späteren Vorlesungen auf biophysikalischen Berechnungen auf Neuronenebene verlagert wird
- Insgesamt arbeitet das Ohr nicht als Fourier-Transformation, sondern als effizientes und adaptives Filtersystem
1 Kommentare
Hacker-News-Kommentare
Kurz gesagt: Das Ohr führt keine Fourier-Transformation aus, sondern eine zeitlich lokalisierte Frequenztransformation irgendwo zwischen Wavelet- und Gabor-Transformation
Das liegt daran, dass Schall zeitlich lokalisiert ist
Außerdem wird die Theorie vorgestellt, dass sich die menschliche Sprache so entwickelt hat, dass sie einen zuvor leeren Bereich im Raum aus Frequenz, Hüllkurve und Dauer besetzt
Es ist möglich, dass die menschliche Cochlea für die menschliche Stimme optimiert ist
Niemand mit Kenntnissen in der Signalverarbeitung behauptet, dass das Ohr eine Fourier-Transformation über unendliche Zeit ausführt
Das Ohr macht im Wesentlichen etwas Ähnliches wie eine FFT (Fast Fourier Transform), also die Berechnung der Intensität je Frequenz
Wavelet- oder Gabor-Transformationen unterscheiden sich mathematisch, liefern aber letztlich zu 95–99 % dieselben Ergebnisse
Vereinfacht gesagt kann man also annehmen, dass das Ohr eine fensterbehaftete diskrete Fourier-Transformation ausführt
Das lässt sich durch das Zeit-Frequenz-Unschärfeprinzip erklären
Es ist leichter verständlich, die Filterbank des Ohrs als beliebige Menge von Filtern zu betrachten, die auf physiologischen Ergebnissen basiert
Auch die Größe des Tieres spielt eine Rolle — je kleiner das Tier, desto eher kann es im Ultraschallbereich Laute erzeugen und hören
Zum Beispiel liegen ein Warnruf wie „Ein Tiger greift an“ und beruhigende Laute für ein Baby in unterschiedlichen Bereichen
Der Titel ist etwas clickbaitig, und der Inhalt ist streng genommen auch falsch
Gabor- oder Wavelet-Transformationen sind verallgemeinerte Formen der Fourier-Transformation und liefern spektrale Analysen über die Zeit
Das Ohr macht tatsächlich etwas sehr Fourier-artiges
Die Fourier-Transformation ist unendlich und kontinuierlich, die DFT ist endlich und diskret
Das menschliche Hören liegt irgendwo dazwischen und ist eher mit einer Fourier-Reihe vergleichbar
Wavelets sind wiederum ein anderer Ansatz, bei dem statt Sinuswellen verformte Wellenformen verwendet werden
Im Alltagsverständnis führt das Ohr letztlich eine „Fourier-artige“ Verarbeitung aus
Im Abstract der Arbeit steht ausdrücklich, dass die Optimierung für Tierlaute zu etwas Fourier-Ähnlichem führt, während die Optimierung für unbelebte Umgebungsgeräusche zu etwas Wavelet-Ähnlichem führt
Wer tiefer einsteigen möchte, sollte sich das CARFAC-Modell von Richard Lyon (Cascade of Asymmetric Resonators with Fast-Acting Compression) ansehen
Es gilt als eine der genauesten digitalen Modellierungen des menschlichen Hörens
Das PDF seines Buches gibt es hier
Die These, dass die menschliche Stimme weniger dicht besetzte Spektralbereiche einnimmt, passt auch zu dem Buch „The Great Animal Orchestra“
Buchlink
Darin geht es darum, dass verschiedene Arten sich so entwickelt haben, dass sie jeweils ihre eigene akustische Nische besetzen
Etwas bedrückend ist allerdings, dass dieser Effekt durch die Zerstörung von Lebensräumen schwächer wird
In Städten singen sie früh, bevor der Verkehrslärm einsetzt, und im Wald später, wenn der Lärm von Insekten abnimmt
Statt räumlicher Vielfalt könnte sich auch zeitliche Vielfalt herausbilden
Es gibt zwar begriffliche Verwirrung, aber die Fourier-Transformation setzt ein unendliches Zeitintervall voraus
Für endliche Zeitintervalle ist Fourier-Reihe der genauere Ausdruck
Die tatsächliche Funktionsweise des Ohrs liegt dazwischen und arbeitet mit einer zeitlichen Gewichtungsfunktion
Der Text trifft diesen Punkt gut
Es ist auch möglich, dass sich menschliche Sprache und Hörstruktur koevolutionär entwickelt haben
Das Ohr führt keine Fourier-Transformation über unendliche Zeit aus
Stattdessen führt es diskrete, fensterbehaftete Transformationen aus, was dem Unschärfeprinzip zwischen Zeit- und Frequenzauflösung ähnelt
Lange Fenster erhöhen die Frequenzauflösung und senken die Zeitauflösung, kurze Fenster machen das Gegenteil
Die menschliche Cochlea arbeitet so, dass sie bei tiefen Frequenzen die Frequenzauflösung erhöht, um Formanten zu unterscheiden, und bei hohen Frequenzen die Zeitauflösung erhöht, um Plosive zu erkennen
Die Basilarmembran ist eine erstaunliche biologische Struktur
In der Computer-Audioverarbeitung ist die FFT nützlich, aber für die Modellierung des menschlichen Hörens auf Basis der zeitlichen Wahrnehmung hat sie Grenzen
Das Video über Tip Links und Ionenkanäle der Haarzellen ist faszinierend
Zugehöriges Video
Wenn diese Struktur beschädigt wird, kann Tinnitus entstehen
Außerdem verfügt das Ohr über aktive Verstärkung, sodass sich Zellen auch durch elektrische Signale in Schwingung versetzen lassen
Das obige Video endet mit einem sehr hohen Ton, daher ist Vorsicht geboten, wenn man Kopfhörer trägt
Da der auditorische Assoziationskortex im Parietallappen Frequenzen unterscheidet, gibt es zwischen Ohr und Gehirn eine Zeit-Frequenz-Transformation
Da das Feuern von Neuronen diskret ist, handelt es sich um eine diskrete Transformation innerhalb endlicher Zeit
Eine einfache Methode, ein endliches Signal auf ein unendliches zu erweitern, besteht darin anzunehmen, dass es sich in Vergangenheit und Zukunft unendlich wiederholt