Wann sollte ich PSD anstelle eines normalen FFT-Betragsspektrums berechnen?

12

Ich habe ein zweiunddreißigstes Sprachsignal, das mit 44,1 kHz abgetastet wurde. Nun möchte ich zeigen, welche Frequenzen die Rede hat. Ich bin mir jedoch nicht sicher, wie ich das am besten erreichen könnte. Es scheint, dass man manchmal den Absolutwert einer Fourier-Transformation und manchmal die spektrale Leistungsdichte berechnet. Wenn ich das richtig verstehe, funktioniert letzteres so, dass ich mein Signal in Teile teile, Teil für Teil eine FFT durchführe und diese irgendwie summiere. Fensterfunktionen sind irgendwie involviert. Kannst du mir das ein bisschen erklären? Ich bin neu bei DSP.

— spede
quelle

1

Das Aufteilen des Signals in Segmente, das Auffinden des jeweiligen Spektrums und das anschließende Mitteln der Spektren kann zur Reduzierung des Rauschens beitragen, verringert jedoch auch die Auflösung. siehe en.wikipedia.org/wiki/Welch%27s_method

— endolith

8

Nun möchte ich zeigen, welche Frequenzen die Rede hat. Ich bin mir jedoch nicht sicher, wie ich das am besten erreichen kann. Es scheint, dass man manchmal den Absolutwert einer Fourier-Transformation und manchmal die spektrale Leistungsdichte berechnet.

Wenn Sie Ihrer Analyse eine physikalische Bedeutung geben möchten, wählen Sie die spektrale Leistungsdichte (PSD). Dies liegt daran, dass Sie auf diese Weise einfach die Leistung Ihres Signals in jedem Frequenzband erhalten. Wenn Sie andererseits keine physikalische Bedeutung haben möchten, aber wissen möchten, wie die Fourieramplituden der einzelnen Bänder relativ zueinander variieren, können Sie sich an die absolute Größe halten.

$x[n]$ $X(f)$ $|X(f)|$ $|X(f)|^2$

Wenn ich das richtig verstehe, funktioniert letzteres so, dass ich mein Signal in Teile teile, Teil für Teil eine FFT durchführe und diese irgendwie summiere. Fensterfunktionen sind irgendwie involviert. Kannst du mir das ein bisschen erklären? Ich bin neu bei DSP.

Nein, das stimmt nicht. Worüber Sie hier sprechen, bezieht sich auf die Short Time Fourier Transformation (STFT). Dies zerlegt einfach Ihr Zeitdomänensignal, verwitwet es und nimmt dann die Fouriertransform an. Am Ende des Tages haben Sie jedoch immer noch eine komplexe Matrix. Wenn Sie sich für die Absolutgröße entscheiden, erhalten Sie eine Fourier-Transformationsmatrix für die Absolutgröße. Wenn Sie die absolute Größe zum Quadrat nehmen, erhalten Sie eine leistungsspektrale Dichtematrix.

— Tarin Ziyaee
quelle

3

Das Wichtige an so etwas wie einem Sprachsignal ist, dass seine Frequenzkomponenten zeitlich variieren . Um Sprache im Frequenzbereich darzustellen, nehmen wir normalerweise ein ausreichend kurzes Fenster des Signals, innerhalb dessen wir annehmen können, dass das Spektrum der Sprache nicht signifikant variiert (typischerweise 10 ms). Daher berechnen wir das Leistungsspektrum für jedes nachfolgende 10-ms-Fenster mit der STFT (häufig mit einer gewissen Überlappung zwischen den Fenstern) und behandeln jedes nachfolgende Spektrum als "Momentaufnahme" der Frequenzkomponenten der Sprache zu diesem bestimmten Zeitpunkt. Oft werden die aufeinanderfolgenden Spektren in einem 3D-Diagramm wie einem Spektrogramm aufgezeichnetmit der Zeit auf der X-Achse, der Frequenz auf der Y-Achse und der als Falschfarbe oder Graustufenintensität an jeder X-, Y-Stelle aufgetragenen Größe.

— Paul R
quelle