Lassen Sie mich von vorne beginnen. Die Standardmethode zur Berechnung des Cepstrums lautet wie folgt:
C.( x ( t ) ) = F.- 1[ log( F.[ x ( t ) ] ) ]
Bei den MFCC-Koeffizienten ist der Fall etwas anders, aber immer noch ähnlich.
Nach dem Hervorheben und Fenstern berechnen Sie die DFT Ihres Signals und wenden die Filterbank der überlappenden Dreiecksfilter an, die in der Mel-Skala getrennt sind (obwohl in einigen Fällen die lineare Skala besser ist als die Mel-Skala):
In Bezug auf die Cepstrum-Definition haben Sie nun die Hüllkurve des Spektrums (reduziertes Spektrum) in der Mel-Frequenzskala dargestellt. Wenn Sie das darstellen, werden Sie sehen, dass es Ihrem ursprünglichen Signalspektrum ähnelt.
Der nächste Schritt besteht darin, den Logarithmus der oben erhaltenen Koeffizienten zu berechnen. Dies liegt an der Tatsache, dass Cepstrum eine homomorphe Transformation sein soll, die das Signal von der Impulsantwort des Vokaltrakts usw. trennt. Wie?
s ( t )h ( t )
s^( t ) = s ( t ) ⋆ h ( t )
Im Frequenzbereich ist die Faltung eine Multiplikation von Spektren:
S.^( f) = S.( f) ⋅ H.( f)
Log( a ⋅ b ) = log( a ) + log( b )
Wir erwarten auch, dass sich die Impulsantwort im Laufe der Zeit nicht ändert, sodass sie leicht durch Subtrahieren des Mittelwerts entfernt werden kann. Jetzt sehen Sie, warum wir die Logarithmen unserer Bandenergien nehmen.
F.- 1ifft
Jetzt sehen Sie, dass es ziemlich schwer zu verstehen ist, wie das ursprüngliche Spektrum aussah. Zusätzlich nehmen wir normalerweise nur die ersten 12 MFCCs, da höhere schnelle Änderungen der logarithmischen Energien beschreiben, was normalerweise die Erkennungsrate verschlechtert. Die Gründe für die Durchführung von DCT waren also folgende:
Ursprünglich müssen Sie IFFT durchführen, aber es ist einfacher, die reellen Koeffizienten von DCT zu erhalten. Außerdem haben wir nicht mehr das gesamte Spektrum (alle Frequenzbereiche), sondern Energiekoeffizienten innerhalb der Mel-Filterbänke. Daher ist die Verwendung von IFFT ein wenig übertrieben.
Sie sehen in der ersten Abbildung, dass sich Filterbänke überlappen, sodass die Energie von nebeneinander liegenden Bänken auf zwei verteilt wird - DCT ermöglicht es, sie zu dekorrelieren. Denken Sie daran, dass dies eine gute Eigenschaft ist, zum Beispiel bei Gaußschen Mischungsmodellen, bei denen Sie diagonale Kovarianzmatrizen (keine Korrelation zwischen anderen Koeffizienten) anstelle von vollständigen (alle Koeffizienten sind korreliert) verwenden können - dies vereinfacht die Dinge erheblich.
Eine andere Möglichkeit, Mel-Frequenzkoeffizienten zu dekorrelieren, wäre PCA (Principal Component Analysis), eine Technik, die ausschließlich für diesen Zweck verwendet wird. Zu unserem Glück wurde bewiesen, dass DCT eine sehr gute Annäherung an PCA ist, wenn es um das Dekorrelieren von Signalen geht, daher ein weiterer Vorteil der Verwendung der diskreten Cosinustransformation.
Einige Literatur:
Hyoung-Gook Kim, Nicolas Moreau und Thomas Sikora - MPEG-7 Audio und darüber hinaus: Indizierung und Abruf von Audioinhalten