Was ist die physikalische / elektrische Grenze der Audioqualität?


7

Vor ein paar Tagen war ich in meinem Studium in einer Klasse über Elektronik. Die erste Lektion war eine Einführung in das Hauptfach, Bits, analoge Signale, Konvertierung usw. Ein Beispiel wurde vom Lehrer gefragt: In welcher maximal möglichen Anzahl von Bits können Audioinformationen gespeichert werden?

Einige der Antworten, die durch die Klasse geworfen wurden, waren "64 Bit, 32 Bit, 16 Bit, 8 Bit (ja, ich weiß ...) ...".

dann sagte der Lehrer, dass es ungefähr 18,19 Bit sind, dann erreichen Sie die Obergrenze, weil Verzerrungen, Rauschen usw. eine große Rolle für Audioaufnahmen spielen.

Ich weiß, dass die typische DVD / Studio-Qualität 24-Bit-Audio ist.

Dies brachte mich jedoch zum Nachdenken: Was ist die maximale physische / reale / elektronische Bitgröße, in der ein Stück Audio gespeichert werden kann? Wäre 32-Bit-Audio übertrieben / würde es zu viel Rauschen enthalten?

Irgendwelche Erklärungen / Quellen dazu?


1
Es gibt keine maximale Stichprobengröße. Ihre Probe kann auf Wunsch 2 Megabyte haben.
Dzarda

3
Ich denke, die Frage des Lehrers ist gut für die Einführung. Es beinhaltet mehrere wichtige Themen, die im Kurs sicherlich behandelt werden: Signal-Rausch-Verhältnis (SNR), logarithmische Skalen (dB vs. log2), Quantisierungseffekte, praktische Überlegungen ("Balanced Design") - und die Relevanz des Marketings Zahlen wie "32-Bit-Audio", "9600 dpi", "40-Megapixel-Smartphone-Kamera" oder "392 kbit / s MP3".
JimmyB

Beachten Sie, dass das 32-Bit-Gleitkommaformat für die Bearbeitung von Audio fantastisch ist. Es hat eine ausgezeichnete Abtasttiefe (mindestens 24 Bit) und einen viel zu großen Dynamikbereich, sodass Sie nicht riskieren, das Signal zu beschneiden oder zu klein zu machen.
Nayuki

Antworten:


6

Was ist die maximale physische / reale / elektronische Bitgröße, in der ein Audio gespeichert werden kann?

Wie Dzarda kommentiert, ist dies keine vernünftige Frage, und es ist nicht klar, was Sie unter "Stück" verstehen. Wenn Sie Probe meinen, können Sie es in so vielen Bits speichern, wie Sie speichern können. Typische HDs enthalten 1 TB und mehr, sodass 8 Tera Bits in Reichweite sind.

Wird 32-Bit-Audio übertrieben sein / zu viel Rauschen enthalten?

Es ist übertrieben, genauso wie es keinen Sinn macht, Ihr Fahrrad mit einer sehr schweren Kette zu schützen, die mit einem weichen Plastikvorhängeschloss verschlossen ist. Du solltest besser weniger Geld für die Kette ausgeben und damit ein besseres Vorhängeschloss kaufen.

Nehmen wir als Argument an, dass das Signal / Rausch-Verhältnis der analogen Teile Ihres Audiosystems 16 Bit entspricht. Wenn Sie als 18-Bit gespeicherten digitalen Sound wiedergeben, der 25% des Rauschpegels hinzufügt, wird das Rauschen um 25% erhöht. (von 100 bis 125 in willkürlichen Einheiten). 20 Bit erhöhen es um 6,25%. 32 Bit um 0,0015%. Das heißt: vorausgesetzt, Sie haben eine perfekte Übersetzung von digital nach analog.

Die Speicherkosten steigen linear mit der Bitgröße, die Kosten eines vollbereichsgenauen D / A-Wandlers steigen fast exponentiell an, wenn Sie sich einer bestimmten Anzahl von Bits nähern (~ 22?). Die Verwendung von mehr Bits als der entsprechenden Qualität in den analogen Teilen kostet also mehr, aber der Qualitätsgewinn nimmt ab. Es ist also einfach nicht wirtschaftlich, mehr Bits zu verwenden: Wenn Sie mehr Geld ausgeben möchten, um eine bessere Qualität zu erzielen, sollten Sie es für die analogen Teile ausgeben. (Ich bin kein Audiophiler, aber AFAIK, der Sprecher, ist oft das schwächste Glied.)

Dies ist ein allgemeines Thema in der Technik: Es geht nicht darum, einzelne Teile so gut wie möglich zu machen, sondern um ein ausgewogenes Design.


1
Ihr dritter Absatz (Bitberechnungen) ist eine Masse von Verwirrung und widerspricht sich selbst. Warum erhöht das Verschieben von Form 16 - 18 Bit das Rauschen um 25% (Berechnungen, um dies zu unterstützen) - wenn es eine bekannte Beziehung zu verringertem Rauschen bei höheren Bittiefen gibt, nach Ihrem Argument, wenn ich die Bittiefe auf 14 Bit verringert habe würde um 25% abnehmen? Was würde mich dann davon abhalten, die Bits für eine ideale Konvertierung auf 1 Bit zu verringern? - Klar, das ist Unsinn. Ein weiterer Widerspruch dahingehend, dass bei höheren Bittiefen (32 Bit) das Rauschen kaum zunimmt? Sehr verwirrend.
Platzhalter

Wenn das Rauschen der analogen Teile dem Rauschen eines 16-Bit-Digitalkanals entspricht (Annahme), hat eine solche Kombination den gleichen Rauschbeitrag von den analogen und digitalen Teilen, sodass der digitale Teil dem analogen Rauschen 100% Rauschen hinzufügt. Wenn Sie nun von 16 auf 18 Bit wechseln, wird der Rauschbeitrag des digitalen Teils von 100% auf 25% reduziert (relativ zum analogen Rauschbeitrag): Der Quantisierungsfehler eines 18-Bit-Kanals beträgt 1/4 desjenigen eines 16-Bit-Kanals .
Wouter van Ooijen

2
Nicht einmal annähernd richtig. Unabhängige Rauschquellen werden als RSS (Wurzelsumme der Quadrate) addiert, sodass zwei Quellen mit identischer Größe das Gesamtrauschen als Quadrat (2) erhöhen. Für die RMS-Messung eines idealen ADC ist das SNR = 6,02 * N + 1,76 (dB), das sich mit dem analogen Rauschen in Quadratur addiert. Wenn Sie also von 16 bis 18 Bit wechseln, wird das Rauschen um 12,04 dB verringert, aber wenn Sie in Quadratur addieren, sehen Sie nur eine Abnahme von Rauschen von sqrt (2) bis sqrt (1/1/16) = 1,03 X, sodass der digitale Aspekt nur 3% beiträgt.
Platzhalter

Sie haben Recht mit der RSS-Addition, und das ändert zwar die Zahlen etwas, aber nicht das Prinzip.
Wouter van Ooijen

3

Die Technologie könnte es Ihnen ermöglichen, (fast) unendlich große (Samples / Sek.) Und unendlich tiefe (Bits) Daten zu speichern, und tatsächlich speichern viele Dinge solche Dinge: Es gibt viele Kameras, die schneller und detaillierter als Menschen aufnehmen können Augen können zum Beispiel 500 Bilder pro Sekunde sehen. Ebenso gibt es wissenschaftliche Instrumente wie Seismometer, die (vereinfacht) Mikrofonen sehr ähnlich sind, aber weitaus empfindlicher als das menschliche Ohr, und die aufgezeichneten Daten werden wahrscheinlich detaillierter gespeichert, als ein Mensch direkt interpretieren könnte, wenn sie in der realen Welt wiedergegeben würden Ebenen. Diese verschiedenen Geräte werden jedoch fast immer zum Erfassen von Dingen verwendet, damit wir sie auf andere Weise analysieren können: eine Welle in einem Diagramm, ein Zeitlupenvideo usw.

Zurück zur Audioaufnahme und -wiedergabe: Es gibt wieder wissenschaftliche Instrumente und Testinstrumente, mit denen Signale von weitaus besserer Qualität (wie Auflösung / Tiefe / Genauigkeit) abgetastet, aufgezeichnet, reproduziert und erzeugt werden können, als Menschen verarbeiten können, aber es macht nicht viel Sinn, sie zu haben in einem Aufnahmestudio.

In einem wirklich guten mehrspurigen Studio möchten Sie vielleicht eine bessere Qualität, als Menschen erkennen können, wenn Sie viele Dinge zusammenfügen. Je weniger Fehler Sie einführen, desto besser wird der endgültige Mix. Wieder vereinfacht; Wenn Sie alle harten Summen mit 4 Dezimalstellen ausführen, muss Ihre endgültige Antwort möglicherweise nur auf 1 Dezimalstelle lauten, kommt aber möglicherweise immer noch besser heraus, da Sie nicht so viel an Rundungsfehlern verloren haben.

Im letzten Fall (menschlicher Verzehr) gibt es nur so viel, was Menschen erkennen können, so dass die Ausrüstung im Allgemeinen gut genug dafür ist, denn warum sollten Sie mehr Arbeit ohne Gewinn tun?

Als Beispiel: Die digitale Bildgebung hat 8 Bit pro Farbe erreicht, da das Auge nicht mehr als 256 Graustufen / die Gesamtkombination von 16,8 Millionen Farben und Schattierungen unterscheiden kann. Wir haben heutzutage 64-Bit-PCs und viel bessere Digitalkameras. Wir könnten 16 Bit pro Farbe speichern, aber die Leute können 281.474.976.710.656 verschiedene Farben nicht sehen und wir würden viel Mühe damit verschwenden, diese Daten zu erfassen und zu speichern.

Ebenso wird niemand für ein Aufnahmestudio mit Geräten bezahlen, die eine Fliege im hinteren Teil des Raums über jemanden hören, aufnehmen, aufnehmen und reproduzieren können, der ein Drumkit schlägt, wie es niemand jemals hören wird, selbst wenn es es ist Dort.


Es kann tatsächlich einige Hauptvorteile geben, die über 8 Bit pro Farbe und ebenfalls 16 Bit für Audio hinausgehen, da sowohl Sehen als auch Hören quasi logarithmisch sind, Bilder und Töne jedoch linear kombiniert werden müssen. Es ist nicht erforderlich, zwischen etwas zu unterscheiden, das 99,5% der vollen Helligkeit und 100% der vollen Helligkeit entspricht. Wenn das hellste Element in einer Szene jedoch 5% der vollen Helligkeit beträgt, kann der Unterschied zwischen 0,2% der vollen Helligkeit und 0,1% der vollen Helligkeit liegen enorm.
Supercat

Sie haben Recht - es ist hilfreich, mehr Daten zu erfassen, als Sie benötigen, insbesondere wenn Sie sie verarbeiten möchten (z. B. führen Sie einen CSI: -Stil "verbessern!" Auf einem Bild oder einer Aufzeichnung durch, um Details hervorzuheben, die ansonsten verborgen sind oder die nicht verwenden voller dynamischer Bereich verfügbar). Sie können ein vollständig "schwarzes" Bild mit 100 Schwarzstufen aufnehmen, aber die Daten dienen dazu, den Kontrast zu erhöhen und die Details anzuzeigen. Je höher die von Ihnen erfasste Datenmenge ist, desto mehr kostet das alles, und viele Menschen kümmern sich nie genug um den Nutzen.
John U

2

Spaß .. mit einigen Zahlen zu spielen. Nehmen wir 1 kOhm Quellenimpedanz an. (Sie müssen etwas annehmen.) Das hat also ~ 4nV / rtHz Johnson-Rauschen. Bei einer Bandbreite von 10 kHz sind das ~ 400 nV Rauschen. OK und nehmen an, es hat bis zu 5 Volt gewonnen und gespeichert. Das sind ungefähr 10 ^ 7 im Dynamikbereich ... 23 Bit. (Im wirklichen Leben wird es mehr Lärm geben ...)


5
Sie gehen davon aus, dass das Breitbandrauschen eine Art absolute Grenze darstellt. Es tut nicht. Tests haben gezeigt, dass das menschliche Ohr Musiktöne erkennen kann, die 10 bis 20 dB oder mehr unter dem Breitbandrauschpegel liegen. Psychoakustik ist ein kompliziertes Thema.
Dave Tweed

@ DaveTweed, Hey das ist absolut richtig! (Wir haben ein Instrument mit einer im Rauschen vergrabenen Sinuswelle und ich teste es durch Hören.) OK, fügen Sie noch ein paar Bits hinzu: ^) Ich weiß sehr wenig über Mikrofone. Haben sie eine Rauschgrenze? nicht im Zusammenhang mit Johnson Lärm? Vielleicht Brownsche Bewegung des Elements (Spule)
George Herold

1
Nun, es gibt sicherlich die Brownsche Bewegung der Luft (das Konzept gilt nur für Flüssigkeiten), die sowohl das Mikrofon als auch das Trommelfell betrifft. Aber auch das ist Breitbandrauschen, das keine absolute Grenze darstellt.
Dave Tweed

Ich bin mit der Signalmittelung einverstanden, dass wir weiter nach Rauschen suchen und Signale finden können. Damit ist die Frage offen. SNR = 1 schien nur ein natürlicher Bezugspunkt zu sein.
George Herold

0

Bei Audio, das per Telefon übertragen wird, werden die Quantisierungspegel für den A / D durch das Rauschpegelmodellierungssystem bestimmt. Das heißt, wir sollten die Quantisierungspegel nicht erhöhen, da Rauschen in den konvertierten Werten enthalten ist. Darüber hinaus reagiert das Ohr nicht linear, so dass zur Optimierung der Bandbreite des vom Telefon übertragenen Signals eine nichtlineare Konvertierung verwendet wird, die es ermöglicht, das Audio in 8-Bit zu codieren und ein verständliches Signal wiederherzustellen.

Offensichtlich ist die Qualität der Audioübertragung für ein Telefon nicht für ein System mit High-Fidelity-Audio vorgesehen.

Kurz gesagt, die Theorie besagt, dass es keine Obergrenze für die Anzahl der Quantisierungspegel eines Audiosignals gibt, aber in der Praxis kann das im System vorhandene Rauschen eine Obergrenze setzen. Weitere Informationen finden Sie unter diesem Link .


0

32-Bit-Audio, das im Gleitkommaformat bei gespeichert ist, ist in der professionellen Industrie üblich. Dies bedeutet jedoch, Rundungsfehler während der digitalen Verarbeitung zu reduzieren, wo sie durch alle Arten von digitalen Filtern und Transformationen stark verarbeitet werden. Ich glaube nicht, dass irgendjemand bei der Aufnahme oder Wiedergabe von Dingen zwischen 24 Bit bei 192 kHz und tieferem, schnellerem Sampling unterscheiden kann. Wahrscheinlich nicht einmal Fledermäuse.


0

Es scheint, dass Sie einige grundlegende Begriffe verstehen müssen. Es gibt AD <-> DA-Wandler mit unterschiedlichen "Bit" -Größen und unterschiedlichen Betriebsfrequenzen. Die Bitgröße beeinflusst die Genauigkeit der "Abtastung", während die Frequenz die Abtastrate beeinflusst. Normalerweise haben Sie ein Audiosignal, das Sie digitalisieren möchten. Die erste Frage, die Sie beantworten müssen, lautet: Wie genau muss die Stichprobe sein? Je höher die Anzahl der verwendeten Bits ist, desto höher ist die Qualität des wiedergegebenen Audios und desto höher sind die Kosten des Konverters. Je höher die Abtastrate, desto höher die Qualität des wiedergegebenen Audios und desto höher die Kosten des Konverters. Die erste praktische Grenze ergibt sich also aus den Kosten des Konverters. Es gibt eine weitere praktische Grenze, die durch die "menschliche Sensibilität" auferlegt wird. Wenn unsere Ohren keinen Unterschied zwischen dem Original und dem wiedergegebenen Audio feststellen können, sind die Anzahl der Bits und die dazu verwendete Abtastrate "gut genug". Aufgrund dieser Informationen glaube ich, dass Ihre Frage lauten sollte:
Was sollte die maximale, praktische Anzahl von Bits (eines AD <-> DA-Wandlers) sein, um eine akzeptable Kopie eines Audiosignals reproduzieren zu können ?
Ich glaube, dass geeignete Berechnungen ungefähr 18 Bit mit einer Abtastrate von 150 kHz ergeben würden.


"Akzeptabel" ist eine dieser Spezifikationen, die absolut nichts bedeuten.
Scott Seidman
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.