Lern-Roadmap für Einsteiger in die Audiosignalverarbeitung

13

Ich möchte mit dem Erlernen der Audiosignalverarbeitung beginnen. Es gibt zahlreiche Bücher online und wissenschaftliche Arbeiten, die die Grundlagen des Themas zu überspringen scheinen.

Ich möchte sozusagen eine grobe Roadmap kennen, um die Audiosignalverarbeitung erfolgreich zu erlernen.

Ich habe gelesen, dass Kalkül der erste Schritt ist, bevor ich mit der Signalanalyse beginne.

Für mich ist die Audiosignalanalyse nur ein Teil des erforderlichen Gesamtwissens. Wo andere Themen Musiktheorie, Tontechnik und Programmierung sind.

Wenn ich Personen mit Kenntnissen auf diesem Gebiet auffordern darf, mögliche Schritte zum Verständnis der Analyse und Bearbeitung / Erstellung von Audiosignalen vorzuschlagen.

audio

— jarryd
quelle

Ich würde zustimmen, dass ein Hintergrund in der Analysis (zumindest) wichtig ist, damit Sie die Mathematik verstehen, die Sie in einem Text oder Kurs zur Signal- und Systemtheorie antreffen könnten. Ich würde sicherstellen, dass Sie zuerst dort schnupfen.

— Jason R

1

Diese Folien könnten helfen. Sie lernen einige nicht mathematische / technische Grundlagen der Audioverarbeitung und Audioprogrammierung kennen. blog.bjornroche.com/2011/11/…

— Björn Roche

17

Ich empfehle einen Blick auf die Physical Audio Signal Processing von Prof. Julius O. Smith III . Es ist online verfügbar oder kann über den Print-on-Demand-Service von Amazon erworben werden.

Insbesondere die Beschreibung in der Buchreihenübersicht könnte sich lohnen.

Bildbeschreibung hier eingeben

— Peter K.
quelle

9

Ich glaube nicht, dass es Sinn macht, in die Komplexität von DFT / FFT / IIR / FIR und Wavelets einzutauchen, ohne vorher zu verstehen, was Audio grundlegend ist und welche verschiedenen Arten es gibt, Audio digital darzustellen.

Was ist Audio im Allgemeinen (in Luft, nicht in Wasser oder anderen Materialien):

Audio besteht aus Schalldruckwellen
Sie bewirken eine Kompression und Verdünnung der Luft
Diese Wellen breiten sich vom Quellpunkt nach außen aus
Wellen können sich gegenseitig stören und Spitzen und Täler verursachen
Wellen können von Materialien absorbiert und reflektiert werden

Wie wird Audio elektrisch dargestellt:

Ein Mikrofon und ein Vorverstärker wandeln die Schalldruckwellen in ein elektrisches Signal um
Typischerweise hat dieses Signal sowohl eine positive als auch eine negative Spannung (wie Wechselspannungen)
Magnetbänder speichern diese Unterschiede so, wie sie erscheinen, daher der Begriff Analog
Eine Sättigung tritt auf, wenn die Stärke des Eingangssignals den Grenzen des Systems entspricht (weitere Spannungserhöhungen können nicht genau dargestellt werden).
Übersteuerung tritt auf, wenn das Eingangssignal höher ist als vom System dargestellt werden kann, sodass das Signal übersteuert (oder an den Extremitäten begrenzt) wird.

Wie wird Audio digital dargestellt:

Audio muss zuerst mit einem ADC (Analog-Digital-Wandler) abgetastet werden
Das Abtasten umfasst das periodische elektrische Messen eines Audiosignals
Diese Periode wird als Abtastrate bezeichnet und bestimmt die höchste darstellbare Frequenz (Nyquist-Grenze).
Die Nyquist-Grenze ist die Abtastrate / 2 (je näher die Grenze rückt, desto schlechter wird das Signal dargestellt).
Der Bitrange bestimmt das Grundrauschen (-96 dB für 16 Bit gegenüber -48 dB für 8 Bit)
Ein einzelnes 16-Bit-Audio-Sample kann ein (vorzeichenbehafteter) Wert zwischen -32768 und 32767 sein (dies kann sowohl den negativen als auch den positiven Swing des analogen Signals darstellen).
Es sind nur 8 Bits pro Byte (in Bezug auf den Computerspeicher) zulässig, sodass ein 16-Bit-Sample durch mindestens 2 Bytes dargestellt werden muss
Die Reihenfolge, in der diese Bytes gespeichert werden, wird als Endian-Typ bezeichnet (groß oder klein).
Stereo-Samples erfordern ein separates Sample für jeden Kanal, eines für links und eines für rechts

Welche unterschiedlichen Methoden werden zum Speichern von digitalem Audio verwendet:

PCM (pulscodemoduliert) ist die gebräuchlichste unkomprimierte Art, Audio digital zu speichern
Es gibt viele Komprimierungen, um die Menge der verwendeten Daten zu verringern, einige sind verlustfrei, andere verlustbehaftet
WAV-Dateien sind nicht komprimiert und können mono oder stereo sein (verschachtelte Samples)
MP3-Dateien sind komprimiert, verlustbehaftet und verwenden Psychoakustik, um sehr hohe Datenkomprimierungsraten zu erzielen
Selbst der niedrigste Bitbereich (1 Bit) kann je nach Verwendung nützlich sein. Dies sind normalerweise Geschenkkarten, die Audio wiedergeben, das als 1 Bit gespeichert ist

So machen Sie sich mit Audio im digitalen Bereich vertraut:

Mach und mach mehr! Laden Sie ein Programm wie Audacity herunter und erstellen Sie unterschiedliche Audiodateien mit unterschiedlichen Abtastraten und Bitbereichen
Erstellen Sie Sinus / Dreieck / Quadrat und Sägezahn-Töne und hören Sie die Unterschiede
Erfahren Sie, wie Sie den Unterschied zwischen Typen wie einer 8-Bit-10-kHz-Datei und einer 16-Bit-44,1-kHz-Datei (CD-Qualität) erkennen können.
Experimentieren Sie mit Hochpass- / Tiefpass- / Bandpassfiltern und hören Sie die Unterschiede
Schieben Sie die Signale über ihre Sättigungsgrenze hinaus, um zu verstehen, wie sich das Abschneiden auf das Audiosignal auswirkt
Wenden Sie Hüllkurven auf Signale an, wenn Ihre Software über diese Funktion verfügt
Es gibt einen Unterschied zwischen unharmonischen und harmonischen Verzerrungen. Experimentieren Sie mit beiden
Verwenden Sie ein Spektrogramm (FFT), um diese und andere Signale zu sehen und sich mit ihnen vertraut zu machen
Verwenden Sie sowohl lineare als auch logarithmische Darstellungen, um die Unterschiede zu erkennen
Down- und Upsamplesignale und hören Sie, wie sich dies auf das Audio auswirkt
Verwenden Sie verschiedene Dithering-Methoden (beim Konvertieren von Bitbereichen) und hören Sie die Unterschiede

Dies gibt Ihnen hoffentlich einen Eindruck davon, was digital dargestelltes Audio ist und wie sich die Unterschiede anhören, bevor Sie einen DSP versuchen. Es ist immer einfacher zu erkennen, dass etwas mit Ihrer FFT-Analyse nicht stimmt, wenn Sie feststellen, dass Sie beispielsweise ein 8-Bit-Signal gegenüber einem 16-Bit-Signal eingegeben haben oder dass die Abtastrate durch eine fehlerhafte Fehlberechnung in einer Transformation verfälscht wurde.

— ronnied
quelle

Danke für die Antwort. Ich bin mir dieser Dinge jedoch bewusst und möchte jetzt auf die dsp-Codierungsseite eingehen.

— Jarryd