Ich habe eine Reihe von Songs, für die ich die STFT (Short-Time Fourier Transform) extrahiert und das MagnitudenspektrumUm das Mel-Spektrogramm unter Verwendung einer Mel-Filterbank-Matrix zu berechnen , ist . Ich möchte wissen, ob es eine Methode gibt, um diesen Prozess umzukehren, dh vom Mel-Spektrogramm zurück zum Spektrogramm zu konvertieren. Ich habe das Mel-Spektrogramm etwas verkleinert und das Mel-Spektrogramm aus niedrigeren Dimensionen rekonstruiert. Jetzt möchte ich das Audiosignal aus dem rekonstruierten Mel-Spektrogramm regenerieren, also rekonstruiere ich zuerst das Spektrogramm und dann das Audiosignal.M X = log ( M × | S | )
Das Problem ist, dass die Mel-Filterbank-Matrix keine quadratische Matrix ist, da wir die Anzahl der Frequenzbereiche reduzieren, so dass die Umkehrung von nicht wie folgt verwendet werden kann: . Gibt es also eine Möglichkeit, das inverse Mapping zu generieren, wie beispielsweise eine inverse Übertragungsfunktion, die von nach konvertiert werden kann ?S = M - 1 exp ( X ) X S