Der Grund, warum die Fouriertransformation beim Merkmalsextrahierungsprozess zweimal angewendet wird, besteht darin, dass die Merkmale auf einem Konzept namens Cepstrum basieren. Cepstrum ist ein Spiel mit dem Wortspektrum - im Wesentlichen besteht die Idee darin, ein Signal durch Fouriertransformation in einen Frequenzbereich zu transformieren und dann eine weitere Transformation durchzuführen, als ob das Frequenzspektrum ein Signal wäre.
Während das Frequenzspektrum die Amplitude und Phase jedes Frequenzbandes beschreibt, kennzeichnet Cepstrum Variationen zwischen den Frequenzbändern. Von Cepstrum abgeleitete Merkmale beschreiben Sprache besser als Merkmale, die direkt aus dem Frequenzspektrum entnommen wurden.
Es gibt ein paar leicht unterschiedliche Definitionen. Ursprünglich wurde die Cepstrumtransformation als Fouriertransformation -> komplexer Logarithmus -> Fouriertransformation definiert [1]. Eine andere Definition ist Fouriertransformation -> komplexer Logarithmus -> inverse Fouriertransformation [2]. Die Motivation für die letztere Definition liegt in der Fähigkeit, gefaltete Signale zu trennen (menschliche Sprache wird häufig als die Faltung einer Erregung und eines Stimmtrakts modelliert).
Eine beliebte Wahl, die sich in Spracherkennungssystemen als gut erwiesen hat, ist die Anwendung einer nichtlinearen Filterbank im Frequenzbereich (das Mel Binning, auf das Sie sich beziehen) [3]. Der spezielle Algorithmus ist definiert als Fourier-Transformation -> Betragsquadrat -> Mel-Filterbank -> Realer Logarithmus -> Diskrete Cosinustransformation.
Hier kann DCT als zweite Transformation ausgewählt werden, da der Realteil der DFT für eine reelle Eingabe eine Art DCT ist. Der Grund, warum DCT bevorzugt wird, ist, dass die Ausgabe ungefähr dekorreliert ist. Dekorrelierte Merkmale können effizient als Gaußsche Verteilung mit einer diagonalen Kovarianzmatrix modelliert werden.
[1] B. Bogert, M. Healy und J. Tukey (1963). Die Frequenz-Alanysis von Zeitreihen für Echos: Cepstrum, Pseudo-Autokovarianz, Cross-Cepstrum und Saphe-Cracking. In den Proceedings des Symposiums zur Zeitreihenanalyse, p. 209-243.
[2] Oppenheim, A. und Schafer, R. (1968). Homomorphe Analyse der Sprache. In IEEE Transactions on Audio and Electroacoustics 16, p. 221-226.
[3] Davis, S. und Mermelstein, P. (1980). Vergleich parametrischer Darstellungen für die einsilbige Worterkennung in kontinuierlich gesprochenen Sätzen. In IEEE-Transaktionen zu Akustik, Sprach- und Signalverarbeitung 28, S. 29. 357-366.