DFT mit geometrisch beabstandeten Behältern?


16

Die traditionelle diskrete Fouriertransformation (DFT) und ihre Cousine, die FFT, erzeugen Bins, die gleichmäßig voneinander beabstandet sind. Mit anderen Worten, Sie erhalten so etwas wie die ersten 10 Hertz im ersten Bin, 10.1 bis 20 Hertz im zweiten Bin usw. Allerdings brauche ich etwas anderes. Ich möchte, dass der Frequenzbereich, der von jedem Bin abgedeckt wird, geometrisch zunimmt. Angenommen, ich wähle einen Multiplikator von 1,5. Dann haben wir 0 bis 10 im ersten Fach, ich möchte 11 bis 25 im zweiten Fach, 26 bis 48 im dritten usw. Ist es möglich, den DFT-Algorithmus so zu modifizieren, dass er sich auf diese Weise verhält?


Sie können die DFT immer an den Points of Interest berechnen. Auch diskreten Wavelet - Transformation und Filter Banks kommen mir in den Sinn. Könnte es wert sein, sie anzuschauen.

2
Sie suchen nach der Constant Q Transform (CQT) .
Paul R

2
Schlecht formuliert. Was Sie wollen, ist in vielen Fällen weder neu noch eine Verbesserung.
hotpaw2


2
DFT und FFT sind keine Cousins. Sie geben identische Ergebnisse.
Phonon

Antworten:


17

Um meine Dissertation zu zitieren:

Eine Auflistung von Transformationen erhält die Namenskonstante Q und ähnelt der Fourier-Transformation.

Die Berechnung der diskreten Fourier-Transformation kann bei Verwendung der schnellen Fourier-Transformation sehr effizient sein. Wir stellen jedoch fest, dass die Energie eines Signals über das gesamte Spektrum in Frequenzbereiche mit einheitlicher Größe aufgeteilt wird. In vielen Fällen ist dies zwar nützlich, wir bemerken jedoch Situationen, in denen diese gleichmäßige Verteilung nicht optimal ist. Ein wichtiges Beispiel für einen solchen Fall ist die Analyse von Musikfrequenzen. In der westlichen Musik sind die Frequenzen, aus denen sich die Tonleiter zusammensetzt, geometrisch voneinander getrennt. Wir sehen daher, dass die Abbildung zwischen den Frequenzbereichen der diskreten Fouriertransformation und den Frequenzen der Musikskalen in dem Sinne unzureichend ist, dass die Bereiche schlecht übereinstimmen. Die konstante Q-Transformation behebt dieses Problem.

Das Ziel der Konstanten Q ist es, einen Satz von logarithmisch beabstandeten Frequenzbins zu erzeugen, bei denen die Breite des Frequenzbins ein Produkt des vorherigen ist. Infolgedessen können wir über das gesamte hörbare Spektrum hinweg eine identische Anzahl von Bins pro Musiknote erzeugen, wodurch ein konstantes Genauigkeitsniveau für jede Musiknote aufrechterhalten wird. Die Frequenzbereiche werden zu den höheren Frequenzen hin breiter und zu den niedrigeren Frequenzen hin schmaler. Diese Streuung in der Genauigkeit der Frequenzerfassung ahmt die Art und Weise nach, in der das menschliche Gehör auf Frequenzen reagiert.

Darüber hinaus ist die Konstante Q aufgrund der engen Übereinstimmung von Noten auf westlichen Skalen besonders nützlich für die Notenerkennung. Identifizieren eines Musiknotenwerts anstelle eines expliziten Frequenzwerts. Darüber hinaus vereinfacht die Konstante Q den Prozess der Klangfarbenanalyse. Die Frequenzen einer von einem Instrument gespielten Note bestehen häufig aus harmonisch verwandten Partials. Das Timbre des Instruments kann durch die Verhältnisse der Harmonischen charakterisiert werden. Bei der konstanten Q-Transformation sind die Oberwellen unabhängig von der Grundfrequenz gleichmäßig über die Bins verteilt. Dies vereinfacht die Identifizierung eines Instruments, das irgendwo auf der Skala eine Note spielt, erheblich, indem die Charakterisierung einfach über die Bins verschoben wird.

Ein effizienter Algorithmus zum Transformieren einer diskreten Fourier-Transformation (die mit der FFT berechnet werden kann) in eine Konstante-Q-Transformation ist in Brown und Puckette (1992) beschrieben.


1

Es gibt signifikante mathematische Annahmen in der DFT (FFT). Das Bedeutsamste in diesem Fall ist, dass Sie eine abgestumpfte Sinustransformation mit unendlich langer Zeit durchführen. Das zweite ist, dass angenommen wird, dass die verkürzten Zeit- und die verkürzten Frequenzsignale modulo-umhüllt sind (zirkular). Die in einer normalen FFT beabstandeten Bins bilden nur aufgrund dieser Annahmen (und des geraden arithmetischen Abtastabstands) eine orthonormale Menge Zeit <-> Frequenzpaare sind daher perfekt umkehrbar.

Die Konstante-Q-Transformation schneidet nicht so gut ab, daher liefert jede praktische Implementierung keine perfekte ortho-normale Paarung. Der Kernel ist eine unendlich lange, exponentiell abklingende Sinuskurve und kann daher nicht den oben angegebenen kreisförmigen Vorteil haben. Wenn Sie nicht abschneiden, bilden sie eine orthonormale Menge.

Die Wavelet-Transformationen haben typischerweise einen Abstand zur Zweierpotenz, was für eine feinkörnige Frequenzschätzung nicht sehr nützlich ist.

Bei dem Vorschlag, eine Standard-Sinus-DFT ungleichmäßig zu verteilen, werden Informationen in dem weit auseinander liegenden Bereich übersehen, während Informationen in dem dicht auseinander liegenden Bereich dupliziert werden. Es sei denn, für jede Frequenz wird eine andere Apodisationsfunktion verwendet ... sehr kostspielig.

Eine praktische Lösung besteht darin, ein Halbspektrum-> 2-mal-dezimiertes Verfahren durchzuführen, um auf Oktaven basierende Unterabschnitte zu erhalten, die einen gewissen Minimax-Schätzfehler pro Oktave erfüllen. Das Verhältnis von Portionsspektrum zu Dezimierung kann auf ein beliebiges Verhältnis eingestellt werden, um die gewünschte Granularität zu erzielen. Trotzdem ziemlich rechenintensiv.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.