Wenn Menschen nur bis zu 20 kHz Frequenzton hören können, warum wird dann Musik mit 44,1 kHz abgetastet?


60

Ich habe an einigen Stellen gelesen, dass Musik meistens mit 44,1 kHz gesampelt wird, während wir nur bis zu 20 kHz hören können. Warum ist es?


1
Jüngere Menschen können höhere Frequenzen hören. Andere Aufnahmetechniken verwenden bis zu 48 kHz.
Thorbjørn Ravn Andersen

15
Nyquist-Theorem: Sie benötigen zwei Samples pro Schwung, um die Frequenz einer Welle zu bestimmen.
Kathreadler

Da Prozessoren schneller sind, ist Speicher billig, aber gute analoge Filter sind immer noch schwierig. Auch höhere Abtastraten können sinnvoll sein (96 oder 192 kHz)
Nick T

2
@ ThorbjørnRavnAndersen Ich denke, 48 kHz sind üblich, da es in 24, 25 und 30 fps unterteilt werden kann, die in der Videoproduktion verwendet werden. 24 geht nicht gleichmäßig in 44100 ein. Das ist, was Wikipedia erwähnt.
Nick T

4
@SohamDe Dies liegt daran, dass Sie, wenn Sie ein 20-kHz-Audiosignal mit genau 20 kHz abtasten, überhaupt nichts hören würden . Stellen Sie sich vor, eine Sinuswelle, die alle 1 / 20,000 Sekunden ihren Höhepunkt erreicht. Wenn Sie das genau mit der gleichen Rate abtasten, werden Sie nur die Peaks (oder Knoten, oder auf welcher Ebene auch immer Sie sie abtasten) abtasten. Wenn Sie also das digitale Signal neu erzeugen, erhalten Sie nur eine flache Linie. Dieses Konzept wird als Aliasing bezeichnet und bewirkt, dass Sie mindestens das Doppelte der Maximalfrequenz abtasten müssen, die Sie hören möchten. 44 100 Hz ist günstig, weil durch eine Potenz von 2 teilbar.
MichaelK

Antworten:


89
  1. Die Abtastrate eines realen Signals muss größer sein als die doppelte Signalbandbreite. Audio beginnt praktisch bei 0 Hz, sodass die höchste Frequenz, die in mit 44,1 kHz aufgezeichnetem Audio vorhanden ist, 22,05 kHz (22,05 kHz Bandbreite) beträgt.
  2. Perfekte Brickwall-Filter sind mathematisch unmöglich, daher können wir Frequenzen über 20 kHz nicht einfach perfekt abschneiden. Die zusätzlichen 2 kHz sind für das Abrollen der Filter vorgesehen. Es ist ein "Wackelraum", in dem das Audio aufgrund von unvollkommenen Filtern einen Alias ​​aufweisen kann , aber wir können es nicht hören.
  3. Der spezifische Wert von 44,1 kHz war mit den damals verwendeten PAL- und NTSC-Videobildraten kompatibel.

Beachten Sie, dass die Begründung an vielen Stellen veröffentlicht wird: Wikipedia: Warum 44,1 kHz?


9
Hallo, ich stimme deiner Antwort wirklich zu, aber das "zweimal die höchste Frequenz" -Ding beißt Anfängern sehr bald zu, weil es in Nyquist um Bandbreite geht, nicht um die höchste Frequenz; Ich habe Ihre Antwort leicht abgeändert. Bitte überprüfen Sie, ob es für Sie in Ordnung ist.
Marcus Müller

2
@ Ruslan: Wikipedia ist ziemlich gut darüber.
Jojek

2
@BrianDrummond Also bearbeitest du es?
Endolith

3
@ MarcusMüller die Anfänger , die ohnehin von „Nyqvist ist höchste zulässige Frequenz“ wird gebissen gebissen, durch Artefakte ... Danach Aliasing, werden sie auch verstehen , wie jeder Bereich von Frequenzen der Bandbreite einem zwischen demoduliert 0 und Δ f = f s / 2 . Δf0Δf=fs/2
Leftaroundabout

1
Man könnte vielleicht nicht in der Lage sein, den Unterschied zwischen einem 19.999,9-Hz-Klang mit zehn Harmonischen und einem 20.000,1-Hz-Klang mit neun zu erkennen, wenn man sie getrennt hört, aber das bedeutet nicht, dass ein Übergang zwischen den beiden nicht hörbar wäre. Ein Filter mit einer allmählicheren Abschaltung würde solche Probleme vermeiden.
Superkatze

72

44.100 wurde von Sony ausgewählt, weil es das Produkt der Quadrate der ersten vier Primzahlen ist. Dies macht es durch viele andere ganze Zahlen teilbar , was eine nützliche Eigenschaft bei der digitalen Abtastung ist.

44100 = 2^2 * 3^2 * 5^2 * 7^2

Wie Sie bemerkt haben, liegt 44100 auch knapp über der verdoppelten Grenze des menschlichen Gehörs. Das gerade oben Teil gibt den Filtern einen gewissen Spielraum, wodurch sie kostengünstiger werden (weniger Chips werden verworfen).

Wie Russell in den Kommentaren ausführt, hatte der durch viele andere ganze Zahlen teilbare Aspekt zum Zeitpunkt der Auswahl der Abtastrate einen unmittelbaren Vorteil. Frühe digitale Audiodaten wurden auf vorhandenen analogen Videoaufzeichnungsmedien aufgezeichnet, die je nach Region entweder die NTSC- oder die PAL- Videospezifikation unterstützten. NTSC und PAL hatten unterschiedliche Raten für Zeilen pro Halbbild und Halbbilder pro Sekunde, deren LCM (zusammen mit den Abtastwerten pro Zeile) 44100 beträgt .


12
Bei der Auswahl ging es nicht nur darum, viele Hauptfaktoren zu ermitteln, sondern insbesondere darum, NTSC- und PAL-Videoaufzeichnungsgeräte für die Speicherung digitaler Master optimal zu nutzen. en.wikipedia.org/wiki/44,100_Hz#Recording_on_video_equipment
Russell Borogove

3
@ RussellBorogove: Vielen Dank. Gemäß dem Wiki-Link ist 44100 der LCM der Abtastraten der NTSC- und PAL-Videofeature-Raten . Das ist eine direkte Folge der Tatsache, dass es sich um eine Zahl mit so vielen Faktoren handelt, und ich glaube, Sie haben Recht, dass das Pferd den Karren nach dieser Spezifikation angeführt hat.
Dotancohen

1
Durch viele Zahlen teilbar, aber nicht durch 8 :)
Bogdan Alexandru

(Wikipedia sagt, dass eine Vielzahl von Raten von 40,5 bis 46,8 kHz diese Kriterien erfüllt hätten, und 44,1 kHz wurden ausgewählt, um ein Übergangsband für das Antiliasing-Filter bereitzustellen.)
Endolith

2
@BogdanAlexandru auch nicht teilbar durch 1 ms USB - Frames: D
Endolithe

13

Die Nyquist-Rate liegt über dem doppelten Bandlimit eines Basisbandsignals, das Sie ohne Mehrdeutigkeit erfassen möchten (z. B. Aliasing).

Sampling mit einer niedrigeren Rate als zweimal 20 kHz, und Sie können den Unterschied zwischen sehr hohen und sehr niedrigen Frequenzen aufgrund von Aliasing nicht erkennen, wenn Sie sich nur die Samples ansehen.

Hinzugefügt: Beachten Sie, dass jedes Signal mit endlicher Länge im Frequenzbereich eine unendliche Unterstützung hat und daher nicht streng bandbegrenzt ist. Dies ist ein weiterer Grund, warum das Abtasten einer nicht-unendlichen Audioquelle, die etwas höher als das Doppelte der höchsten Frequenzspektren (in einem Basisbandsignal) ist, erforderlich ist, um signifikantes Aliasing zu vermeiden (über die bloßen Gründe des Roll-Offs beim Filterübergang hinaus).


Hallo, ich stimme deiner Antwort wirklich zu, aber das "zweimal die höchste Frequenz" -Ding beißt Anfängern sehr bald zu, weil es in Nyquist um Bandbreite geht, nicht um die höchste Frequenz; Ich habe Ihre Antwort leicht abgeändert. Bitte überprüfen Sie, ob es für Sie in Ordnung ist.
Marcus Müller

6
@ MarcusMüller, weil „Anfänger“ Probenahme mit Probenahme startet Basisbandsignalen und nicht die Übertragungsbandsignale, es wirklich ist über die höchste Frequenz (manchmal auch als „Bandgrenze“) und nicht die Bandbreite (die eine zusätzliche Zweideutigkeit in Bezug auf einseitigem hat oder zweiseitig Bandbreite).
Robert Bristow-Johnson

@ robertbristow-johnson haben diese Mehrdeutigkeit nicht angeschaut. Hm; Ich mag den bandlimit Ansatz!
Marcus Müller

3
Bfs2B±BBfs>2B

10

2×20=40

Was Sie theoretisch brauchen, ist nicht das, was in der Praxis benötigt wird. Dies geht zusammen mit dem Zitat (vielen zugeschrieben):

In der Theorie gibt es keinen Unterschied zwischen Theorie und Praxis. In der Praxis gibt es.

Ich bin kein Audio-Experte, aber ich bin von hochqualifizierten Audio-Sampling- / Kompressions-Mitarbeitern geschult worden. Mein Wissen könnte verrostet sein, sei vorsichtig.

Erstens funktioniert die Standardabtastungstheorie unter folgenden Voraussetzungen: lineare Systeme und Zeitinvarianz. Dann ist theoretisch bekannt, dass ein kontinuierliches bandbegrenztes Phänomen möglicherweise mit etwa der doppelten Bandbreite (oder der doppelten Maximalfrequenz für Basisbandsignale) ohne Verlust abgetastet wird. Die "Nyquist-Rate" wird häufig definiert als:

die minimale Rate, mit der ein Signal abgetastet werden kann, ohne Fehler einzuführen

Dies ist der Analyseteil des "Abtasttheorems". Das "Kann sein" ist wichtig. Es gibt einen Syntheseteil: Das kontinuierliche Signal kann analog mit Kardinalsinus " rekonstruiert" werden. Dies ist nicht die einzige Technik und berücksichtigt keine nichtlinearen (wie Quantisierung, Sättigung) Tiefpass-Vorfilter und andere zeitvariante Faktoren.

Das menschliche Gehör ist kein einfaches Thema. Es wird angenommen, dass Menschen Frequenzen von 20 Hz bis zu 20.000 Hz hören. Solche genauen Grenzen bei Hertz sind jedoch nicht für alle Menschen ein Naturmerkmal. Ein allmählicher Verlust der Empfindlichkeit gegenüber höheren Frequenzen ist mit zunehmendem Alter häufig. Auf der anderen Seite:

Unter idealen Laborbedingungen kann der Mensch Geräusche bis zu 12 Hz und bis zu 28 kHz hören, obwohl die Schwelle bei Erwachsenen bei 15 kHz stark ansteigt

Das Hören ist nicht linear: Es gibt Hör- und Leidensschwellen . Es ist nicht zeitinvariant. Es gibt sowohl zeitliche als auch frequente Maskierungseffekte.

2.2×22×32×52×72

2×2044.1

Es gibt noch weitere Optionen: Das DAT-Format wurde beispielsweise mit 48-kHz-Abtastung freigegeben, wobei die Konvertierung zunächst schwierig war. 96 kHz wird in Bezug auf die Quantisierung (oder Bittiefe) in Welche Abtastrate und Bittiefe sollte ich verwenden? Dies ist ein kontroverses Thema, siehe 24-Bit-48-kHz-Verse 24-Bit-96-kHz . Sie können beispielsweise die Audacity-Abtastraten überprüfen .


2
1. Die Antwort auf die Frage lautet, dass der Nyquist-Satz> 40 kHz und nicht> 20 kHz vorschreibt. 2. Weder das menschliche Gehör noch das CD-Format sind am unteren Ende auf 20 Hz begrenzt. Jede ausreichend große Pfeifenorgel kann einen 16-Hz-Ton erzeugen und eine CD kann ihn problemlos wiedergeben. Einige Organe gehen auf 8 Hz zurück, was als einzelne Schwingungen wahrgenommen wird, aber wiederum eine CD reproduzieren kann.
user207421

Ich bin mit Ihrem Kommentar einverstanden, mit Ausnahme von "diktiert" (dies ist eine "wenn" Bedingung). Können Sie darauf hinweisen, wo ich davon abgewichen bin?
Laurent Duval

1
Ich habe nur eine Ergänzung zu @LaurentDuvals Antwort. Sprache, Musik und Ton sind im Allgemeinen instationäre Signale. Diese sind zwar effektiv bandbegrenzt, aber wir wissen noch nicht, wie das menschliche Ohr das kontinuierliche Zeitsignal in Nervenzündungen umwandelt, die unsere Wahrnehmung von Geräuschen erleichtern. Es wird oft behauptet, dass manche Menschen "goldene Ohren" haben und zwischen 44,1 kHz und 96 kHz unterscheiden können. Außerdem muss ich noch Folgendes bestätigen: Es scheint, dass höhere Abtastraten die Wahrnehmung zusätzlicher Hinweise fördern, beispielsweise die Lokalisierung in binauralen Aufnahmen.
Neeks

0

Warum es genau 44,1 kHz sind, wurde bereits beantwortet - aber um sich auf den Aspekt Ihrer Frage zu konzentrieren, der mit der Grenze der menschlichen Wahrnehmung zusammenhängt, ist der Grund ganz einfach.

Die zeitliche Auflösung muss fein genug sein, um alle möglichen Wellenformen bis zur wahrnehmbaren Grenze erzeugen zu können. Nach dem Abtasttheorem muss die Auflösung so sein, dass die Abtastfrequenz mindestens das Doppelte dieser Frequenz beträgt. Intuitiv benötigen Sie bei der höchsten Frequenz mindestens 2 Punkte, um das Maximum und das Minimum Ihres Signals darzustellen - so erhalten Sie diese Ascii-art-Rechteckwelle:

_   _
 |_| |_

-1

Um ein Signal originalgetreu wiederzugeben, ist die Abtastrate umso höher, je höher die Abtastrate ist. ~ 40 kHz wurde gewählt, da es sich um eine niedrige Abtastrate handelt, für die die meisten Menschen (bei der Rekonstruktion) keinen Unterschied feststellen können. Als Audio-Sampling eingeführt wurde, waren Speicher und Speicher teuer und höhere Sampleraten waren nicht billig möglich.

Bei der doppelten Obergrenze des menschlichen Hörvermögens sind zwei Abtastwerte pro Zyklus eine sehr schlechte Rekonstruktion. Selbst wenn sie die Nyquist-Kriterien für die Signalabtastung erfüllen, zeigt ein einfaches Diagramm, das eine Sinuswelle mit zwei Abtastwerten pro Zyklus darstellt, wie schlecht zwei Abtastwerte pro Zyklus sind bei der Wiedergabe einer Wellenform. Sie können eine Sinuswelle buchstäblich in eine Rechteckwelle umwandeln. es ist eine gute Sache bei 20 kHz, die niemand sagen kann. Ich wette, ein Hund könnte es aber.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.