Könnte eine DCT eher für ein Audio-Magnituden-Spektrum als für eine DFT verwendet werden?

Soweit ich weiß, hat die DCT die Hälfte der Bin-Größe einer DFT der gleichen Größe N. Die DFT enthält auch Phaseninformationen, die jedoch häufig nicht benötigt werden, wenn nur das Betragsspektrum gewünscht wird.

Könnte die DCT verwendet werden, um ein Größenspektrum mit der doppelten Dichte (dem halben Bin-Abstand) der DFT bereitzustellen, oder würden Informationen über die Phasenverschiebung verloren gehen?
Wie wäre es mit einer Überlappung von 50%?

dct dft

— Jakob
quelle

Ich glaube, die DCT enthält auch Phaseninformationen, sie verwendet nur keine komplexen Zahlen. Die "echte FFT" verwendet auch die Hälfte des Speichers und die Hälfte der Rechenzeit für die gleiche Information, indem die identischen negativen Frequenzen weggeworfen werden. "Der Realteil einer FFT doppelter Länge ist derselbe wie der der DCT mit Ausnahme der Halbabtast-Phasenverschiebung in den Funktionen der sinusförmigen Basis"

— Endolith

Tatsächlich kann das Vorzeichen eines Koeffizienten zumindest als Phase eines armen Mannes betrachtet werden

— Laurent Duval,

Antworten:

Ja, DCT kann verwendet werden, um ein Größenspektrum mit der doppelten Dichte bereitzustellen. Ich verstehe Überlappungen nicht ganz, gehe aber davon aus, dass Sie eine Überlappung erwartet haben, da DCT weniger abdeckt. Lassen Sie mich einen kurzen Überblick über die Verwendung von DCT hauptsächlich in der Bildverarbeitung geben, um eine geeignete Antwort auf die Frage zu erhalten.

Zunächst müssen wir einige Annahmen treffen. Um DCT verwenden zu können, benötigen Sie ein echtes Signal. Dies ist per Definition. Während Sie sagen, dass DCT im Vergleich zu DFT in Größe N die Hälfte der Bin-Größe hat, gehen Sie davon aus, dass das Signal ein Niederfrequenzsignal ist. Ansonsten nicht so sehr.

Für die Verwendung von DCT bei der Komprimierung erzeugt die DFT des Bildes, da sie symmetrisch ist, redundante Informationen (ein Seitenspiegel reicht aus, um das Signal zu reproduzieren). Daher wird der DCT-Kern verwendet, um im Vergleich zur DFT dichtere Informationen zu erzeugen. Dies gilt auch für niederfrequente Audiosignale und kann auf die gleiche Weise verwendet werden. Während es dichter wird, werden die Koeffizienten größer, da der Kern der DCT beide Seiten (Real- und Imaginärteil) des Signals abdeckt.

Mein Hauptfach ist Bildverarbeitung, deshalb habe ich versucht, DCT- und DFT-Konzepte und Erklärungen in der Bildverarbeitung abzubilden. Ein Unterschied zwischen Bild und Ton könnte jedoch die Größe sein. In der Bildverarbeitung kennen Sie die Größen (Zeilen und Spalten für FFT und andere Zwecke der Verarbeitung). Ich vermute, dass Sie den Vektor der Audiodaten irgendwie teilen müssen, um weiterzuverarbeiten. Ohne Kenntnis der Daten könnte dies problematisch sein (da bin ich mir nicht sicher).

Hier ist ein Bild aus dem Web, aber ich habe es nicht aufgeschrieben, wo ich es aufgenommen habe, könnte Wikipedia sein .;

Bildverarbeitung

Wie Sie sehen können, wird das transformierte Bild in der DCT problemlos als Magnitudenspektrum dargestellt. Kompakter und dichter, und schauen Sie sich die Größe der Koeffizienten an. Es ist größer als das Zweifache der DFT. DFT ist symmetrisch, Sie können es einfach in zwei Teile teilen. Ein Teil ist überflüssig. Und eine weitere Sache, DCT kann die Informationen speichern, ist nicht nur die Hälfte der DFT, sondern fast ein Viertel der DFT. Dies ist im Allgemeinen der Fall, wenn die DCT die DFT in Bildern überwindet.

— Hephaistos
quelle

Kann die FFT nicht in Viertel geteilt werden, weil sie sowohl in der X- als auch in der Y-Dimension redundant ist?

— Endolith

Warum sieht es so aus, als ob die FFT mehr Informationen und die DCT mehr Nullen enthält?

— Endolith

Erste Frage, ich verstehe nicht ganz, was meinst du mit X- und Y-Dimensionen? Bei der zweiten Frage handelt es sich um Unterschiede in ihren Kerneln. Es sieht nicht so aus, als ob DCT mehr Nullen enthält, es enthält tatsächlich mehr Nullen als die normale Fourier-Transformation (DFT). Dies ist wiederum auf ihren Unterschied in den Kerneln zurückzuführen.

— Hephaistos

Ich meine, dass das Bild ein echtes Signal ist, also enthält die FFT redundante Informationen. Die negative Hälfte der FFT ist in beiden Dimensionen nur ein Spiegel der positiven Hälfte.

— Endolith

Wie wäre es mit einer Überlappung von 50%?

Aus dieser Frage geht hervor, dass Sie darüber nachdenken, eine lokalisierte Blockverarbeitung in der Art eines gleitenden Fourier- oder Spektrogramms durchzuführen.

Könnte die DCT verwendet werden, um ein Größenspektrum mit der doppelten Dichte (dem halben Bin-Abstand) der DFT bereitzustellen, oder würden Informationen über die Phasenverschiebung verloren gehen?

Wenn Sie über das Betragsspektrum sprechen, geht natürlich ein Teil der Phase (sei es das Argument eines komplexen Fourier-Koeffizienten oder das Vorzeichen eines DCT-Koeffizienten) verloren .

Natürlich können Sie viele Kernel als Ersatz für die fenstergesteuerte Fourier-Transformation innerhalb der Kurzzeit-Fourier-Formulierung nur zur Analyse einsetzen. Die verschiedenen DCT-Rassen, deren überlappende Versionen (LOT, MDCT) mit guten orthogonalen und Fenstereigenschaften, können sogar invertiert werden (Synthese).

In Audio, (nicht komplexe) DCT oder überlappenden Versionen wird oft für die Analyse verwendet, Einsetzen und die Tonhöhenerkennung, (Blind Source Separation) es ist zum Beispiel der STFT, MDCT und Inversen Toolbox Matlab von A. Liutkus. Die Large-Time-Frequenzanalyse-Toolbox (LTFAT) verfügt außerdem über:

Schnelle TF-Transformationen mit linearer Zeit-Frequenz-Skala: Gabor (STFT), Wilson und Windowed MDCT

Geringe Regression im Bereich Gabor und WMDCT

Ich kenne Audio nicht sehr gut. Eine Überlappung von 50% oder 75% ist jedoch sehr häufig, und nur sehr wenige Benutzer verwenden andere Einstellungen. Es ist jedoch sehr üblich, mindestens zwei Fenstergrößen zu verwenden , eine lange mit stationärem Teil und eine kurze mit vorübergehendem Teil, um die Zeit-Frequenz-Begrenzung "mit einem Fenster" zu überwinden.

— Laurent Duval
quelle