Mittlere Normalisierung des Cepstrums

Kann mir jemand bitte erklären, wie sich die Äquivalenz der Faltung auf die Cepstral Mean Normalization auswirkt? Muss CMN für die MFCC-basierte Sprechererkennung verwendet werden? Warum ist das Eigentum der Faltung das Grundbedürfnis des MFCC?

Ich bin sehr neu in dieser Signalverarbeitung. Bitte helfen Sie

mfcc

— Mun
quelle

Kann ohne Verwendung einer Filterbank die Frequenz im MFCC-Prozess direkt in Melscale konvertiert werden?

— lila

Nur um es klar zu machen - diese Eigenschaft ist nicht grundlegend, aber wichtig . Dies ist der grundlegende Unterschied bei der Verwendung von DCT anstelle von DFT für die Spektrumsberechnung.

Warum machen wir Cepstral Mean Normalization?

Bei der Sprechererkennung möchten wir alle Kanaleffekte (Impulsantwort des Stimmtrakts, Audiopfads, Raums usw.) entfernen. Vorausgesetzt, dass das Eingangssignal und die Kanalimpulsantwort durch , ist das aufgezeichnete Signal eine lineare Faltung von beiden: $x[n]$ $h[n]$

y [n] = x [n] ⋆ h [n]

$y[n] = x[n] \star h[n]$

Durch die Fourier-Transformation erhalten wir:

Y. [f] = X [f] \cdot H [f]

$Y[f] = X[f]\cdot H[f]$

Aufgrund der Faltungs-Multiplikations-Äquivalenz-Eigenschaft von FT ist diese Eigenschaft in diesem Schritt für FFT so wichtig .

Der nächste Schritt bei der Berechnung von Cepstrum ist der Logarithmus des Spektrums:

Y. [q] = Log Y. [f] = Log (X [f] \cdot H [f]) = X [q] + H [q]

$Y[q] = \log Y[f] = \log \left( X[f] \cdot H[f]\right) = X[q] + H[q]$

weil: . Offensichtlich ist die Häufigkeit . Wie man bemerken könnte, erhalten wir, indem wir das Cepstrum der Faltung im Zeitbereich nehmen, die Hinzufügung im Cepstralbereich (Quefrenzbereich). $\log(ab) = \log a +\log b$ $q$

Was ist die mittlere Cepstral-Normalisierung?

Jetzt wissen wir, dass im cepstralen Bereich alle Faltungsverzerrungen durch Addition dargestellt werden. Nehmen wir an, dass alle von ihnen stationär sind (was eine starke Annahme ist, da sich der Stimmapparat und die Kanalantwort nicht ändern) und der stationäre Teil der Sprache vernachlässigbar ist. Wir können beobachten, dass für jeden i-ten Frame gilt:

{Y.}_{ich} [q] = H [q] + X_{ich} [q]

$Y_i[q] = H[q] + X_i[q]$

Indem wir den Durchschnitt über alle Frames berechnen, erhalten wir

\frac{1}{N} \sum_{ich} {Y.}_{ich} [q] = H [q] + \frac{1}{N} \sum_{ich} X_{ich} [q]

$\dfrac{1}{N}\sum_{i} Y_i[q] = H[q] + \dfrac{1}{N}\sum_{i} X_i[q]$

Den Unterschied definieren:

\begin{matrix} R_{ich} [q] & = {Y.}_{ich} [q] - \frac{1}{N} \sum_{j} {Y.}_{j} [q] \\ = H [q] + X_{ich} [q] - (H [q] + \frac{1}{N} \sum_{j} X_{j} [q]) \\ = X_{ich} [q] - \frac{1}{N} \sum_{j} X_{j} [q] \end{matrix}

$\begin{array} &R_i[q] &= Y_i[q] - \dfrac{1}{N}\sum_{j} Y_j[q]\\ & = H[q] + X_i[q] - \left(H[q] + \dfrac{1}{N}\sum_{j} X_j[q]\right) \\ & = X_i[q] - \dfrac{1}{N}\sum_{j} X_j[q]\\ \end{array}$

Am Ende haben wir unser Signal mit entfernten Kanalverzerrungen. Alle obigen Gleichungen in einfaches Englisch umsetzen:

Cepstrum berechnen
Subtrahieren Sie den Durchschnitt von jedem Koeffizienten
Optional durch Varianz dividieren, um die mittlere Cepstral-Normalisierung im Gegensatz zur Subtraktion durchzuführen.

Ist eine Normalisierung des Cepstral-Mittelwerts erforderlich?

Dies ist nicht obligatorisch, insbesondere wenn Sie versuchen, einen Lautsprecher in einer einzelnen Umgebung zu erkennen. Tatsächlich kann es sogar zu einer Verschlechterung Ihrer Ergebnisse kommen, da es aufgrund von additivem Rauschen zu Fehlern kommen kann:

y [n] = x [n] ⋆ h [n] + w [n]

$y[n] = x[n] \star h[n] + w[n]$

Y. [f] = X [f] \cdot H [f] + W [f]

$Y[f] = X[f]\cdot H[f] + W[f]$

Log Y. [f] = Log [X [f] (H [f] + \frac{W [f]}{X [f]})] = Log X [f] + Log (H [f] + \frac{W [f]}{X [f]})

$\log Y[f] = \log \left[X[f]\left(H[f]+\dfrac{W[f]}{X[f]} \right) \right] = \log X[f] +\log \left(H[f]+\color{red}{\dfrac{W[f]}{X[f]}} \right)$

Bei schlechten SNR-Bedingungen kann ein markierter Term die Schätzung überholen.

Wenn CMS ausgeführt wird, können Sie in der Regel einige zusätzliche Prozent gewinnen. Wenn Sie zu diesem Leistungsgewinn Ableitungen von Koeffizienten hinzufügen, erhalten Sie eine echte Steigerung Ihrer Erkennungsrate. Die endgültige Entscheidung liegt bei Ihnen, insbesondere, dass es viele andere Methoden zur Verbesserung von Spracherkennungssystemen gibt.

— jojek
quelle

@ Mun: Ich bin froh, dass es geholfen hat. Warum kennzeichnen Sie Antworten auf Ihre Fragen nicht als akzeptiert, damit Sie Einschränkungen für neue Benutzer aufheben können?

— jojek

@ Mun: Herzlichen Glückwunsch! Jetzt postest du mehr Links, stimmst über Fragen und Antworten ab und kennzeichnest Posts.

— jojek

danke @jojek .. Ich bin sehr neu in diesen all.But bin froh, dass ich mein Problem gelöst habe.

— mun

@mun: Dann empfehle ich dir auf jeden Fall eine

— kurze

In der letzten Antwort kann ich nicht verstehen, was "Addieren zu diesem Leistungsgewinn aus Ableitungen von Koeffizienten" tatsächlich bedeutet. Können Sie ein paar einfache Erklärungen geben? Vielen Dank

— Shuai Wang