Ich habe an einigen Stellen gelesen, dass Musik meistens mit 44,1 kHz gesampelt wird, während wir nur bis zu 20 kHz hören können. Warum ist es?
Ich habe an einigen Stellen gelesen, dass Musik meistens mit 44,1 kHz gesampelt wird, während wir nur bis zu 20 kHz hören können. Warum ist es?
Antworten:
Beachten Sie, dass die Begründung an vielen Stellen veröffentlicht wird: Wikipedia: Warum 44,1 kHz?
44.100 wurde von Sony ausgewählt, weil es das Produkt der Quadrate der ersten vier Primzahlen ist. Dies macht es durch viele andere ganze Zahlen teilbar , was eine nützliche Eigenschaft bei der digitalen Abtastung ist.
44100 = 2^2 * 3^2 * 5^2 * 7^2
Wie Sie bemerkt haben, liegt 44100 auch knapp über der verdoppelten Grenze des menschlichen Gehörs. Das gerade oben Teil gibt den Filtern einen gewissen Spielraum, wodurch sie kostengünstiger werden (weniger Chips werden verworfen).
Wie Russell in den Kommentaren ausführt, hatte der durch viele andere ganze Zahlen teilbare Aspekt zum Zeitpunkt der Auswahl der Abtastrate einen unmittelbaren Vorteil. Frühe digitale Audiodaten wurden auf vorhandenen analogen Videoaufzeichnungsmedien aufgezeichnet, die je nach Region entweder die NTSC- oder die PAL- Videospezifikation unterstützten. NTSC und PAL hatten unterschiedliche Raten für Zeilen pro Halbbild und Halbbilder pro Sekunde, deren LCM (zusammen mit den Abtastwerten pro Zeile) 44100 beträgt .
Die Nyquist-Rate liegt über dem doppelten Bandlimit eines Basisbandsignals, das Sie ohne Mehrdeutigkeit erfassen möchten (z. B. Aliasing).
Sampling mit einer niedrigeren Rate als zweimal 20 kHz, und Sie können den Unterschied zwischen sehr hohen und sehr niedrigen Frequenzen aufgrund von Aliasing nicht erkennen, wenn Sie sich nur die Samples ansehen.
Hinzugefügt: Beachten Sie, dass jedes Signal mit endlicher Länge im Frequenzbereich eine unendliche Unterstützung hat und daher nicht streng bandbegrenzt ist. Dies ist ein weiterer Grund, warum das Abtasten einer nicht-unendlichen Audioquelle, die etwas höher als das Doppelte der höchsten Frequenzspektren (in einem Basisbandsignal) ist, erforderlich ist, um signifikantes Aliasing zu vermeiden (über die bloßen Gründe des Roll-Offs beim Filterübergang hinaus).
Was Sie theoretisch brauchen, ist nicht das, was in der Praxis benötigt wird. Dies geht zusammen mit dem Zitat (vielen zugeschrieben):
In der Theorie gibt es keinen Unterschied zwischen Theorie und Praxis. In der Praxis gibt es.
Ich bin kein Audio-Experte, aber ich bin von hochqualifizierten Audio-Sampling- / Kompressions-Mitarbeitern geschult worden. Mein Wissen könnte verrostet sein, sei vorsichtig.
Erstens funktioniert die Standardabtastungstheorie unter folgenden Voraussetzungen: lineare Systeme und Zeitinvarianz. Dann ist theoretisch bekannt, dass ein kontinuierliches bandbegrenztes Phänomen möglicherweise mit etwa der doppelten Bandbreite (oder der doppelten Maximalfrequenz für Basisbandsignale) ohne Verlust abgetastet wird. Die "Nyquist-Rate" wird häufig definiert als:
die minimale Rate, mit der ein Signal abgetastet werden kann, ohne Fehler einzuführen
Dies ist der Analyseteil des "Abtasttheorems". Das "Kann sein" ist wichtig. Es gibt einen Syntheseteil: Das kontinuierliche Signal kann analog mit Kardinalsinus " rekonstruiert" werden. Dies ist nicht die einzige Technik und berücksichtigt keine nichtlinearen (wie Quantisierung, Sättigung) Tiefpass-Vorfilter und andere zeitvariante Faktoren.
Das menschliche Gehör ist kein einfaches Thema. Es wird angenommen, dass Menschen Frequenzen von 20 Hz bis zu 20.000 Hz hören. Solche genauen Grenzen bei Hertz sind jedoch nicht für alle Menschen ein Naturmerkmal. Ein allmählicher Verlust der Empfindlichkeit gegenüber höheren Frequenzen ist mit zunehmendem Alter häufig. Auf der anderen Seite:
Unter idealen Laborbedingungen kann der Mensch Geräusche bis zu 12 Hz und bis zu 28 kHz hören, obwohl die Schwelle bei Erwachsenen bei 15 kHz stark ansteigt
Das Hören ist nicht linear: Es gibt Hör- und Leidensschwellen . Es ist nicht zeitinvariant. Es gibt sowohl zeitliche als auch frequente Maskierungseffekte.
Es gibt noch weitere Optionen: Das DAT-Format wurde beispielsweise mit 48-kHz-Abtastung freigegeben, wobei die Konvertierung zunächst schwierig war. 96 kHz wird in Bezug auf die Quantisierung (oder Bittiefe) in Welche Abtastrate und Bittiefe sollte ich verwenden? Dies ist ein kontroverses Thema, siehe 24-Bit-48-kHz-Verse 24-Bit-96-kHz . Sie können beispielsweise die Audacity-Abtastraten überprüfen .
Warum es genau 44,1 kHz sind, wurde bereits beantwortet - aber um sich auf den Aspekt Ihrer Frage zu konzentrieren, der mit der Grenze der menschlichen Wahrnehmung zusammenhängt, ist der Grund ganz einfach.
Die zeitliche Auflösung muss fein genug sein, um alle möglichen Wellenformen bis zur wahrnehmbaren Grenze erzeugen zu können. Nach dem Abtasttheorem muss die Auflösung so sein, dass die Abtastfrequenz mindestens das Doppelte dieser Frequenz beträgt. Intuitiv benötigen Sie bei der höchsten Frequenz mindestens 2 Punkte, um das Maximum und das Minimum Ihres Signals darzustellen - so erhalten Sie diese Ascii-art-Rechteckwelle:
_ _
|_| |_
Um ein Signal originalgetreu wiederzugeben, ist die Abtastrate umso höher, je höher die Abtastrate ist. ~ 40 kHz wurde gewählt, da es sich um eine niedrige Abtastrate handelt, für die die meisten Menschen (bei der Rekonstruktion) keinen Unterschied feststellen können. Als Audio-Sampling eingeführt wurde, waren Speicher und Speicher teuer und höhere Sampleraten waren nicht billig möglich.
Bei der doppelten Obergrenze des menschlichen Hörvermögens sind zwei Abtastwerte pro Zyklus eine sehr schlechte Rekonstruktion. Selbst wenn sie die Nyquist-Kriterien für die Signalabtastung erfüllen, zeigt ein einfaches Diagramm, das eine Sinuswelle mit zwei Abtastwerten pro Zyklus darstellt, wie schlecht zwei Abtastwerte pro Zyklus sind bei der Wiedergabe einer Wellenform. Sie können eine Sinuswelle buchstäblich in eine Rechteckwelle umwandeln. es ist eine gute Sache bei 20 kHz, die niemand sagen kann. Ich wette, ein Hund könnte es aber.