Standardabweichung der spektralen Ebenheit - was messe ich konzeptionell?

Bei meiner unendlichen Suche nach Schnarchen habe ich festgestellt, dass "spektrale Flachheit" ein angemessenes Maß für die Signalqualität zu sein scheint.

Ich berechne die spektrale Ebenheit als das geometrische Mittel der Datenpunkte der FFT-Leistung geteilt durch das arithmetische Mittel derselben Punkte. $(R*2 + I*2)$

Ich berechne dann (hier eine kleine Wendung) das laufende (über 50 Bilder) arithmetische Mittel und die Standardabweichung der spektralen Ebenheit und berechne eine "normalisierte" Standardabweichung als laufende Standardabweichung geteilt durch das laufende Mittel.

Bei meinen Samples stelle ich fest, dass diese Metrik größer als etwa (bis zu oder so), wenn der Ton "gut" ist (dh ich habe eine zuverlässige Verfolgung der Atem- / Schnarchgeräusche eines schlafenden Subjekts) und sie rutscht im Allgemeinen ab unter wenn Audio "im Schlamm" ist. (Ich kann diese Unterscheidung etwas verbessern, indem ich einen Schwellenwert verwende, der sich mit anderen Faktoren bewegt, aber das ist vermutlich ein anderes Thema.) Ich beobachte auch, dass die Messung über geht, wenn erhebliche Hintergrundgeräusche auftreten (z. B. wenn jemand den Raum betritt und raschelt ). $0.2$ $0.5$ $0.2$ $1.0$

Meine grundlegende Frage lautet also: Gibt es einen Namen (jenseits der "normalisierten Standardabweichung der spektralen Ebenheit") für das, was ich messe, und kann jemand eine konzeptionelle Erklärung dafür anbieten, was die Metrik "bedeutet"?

(Ich habe ein Dutzend anderer Metriken für die Signalqualität ausprobiert, und diese scheint die bisher beste zu sein.)

Hinzugefügt: Ich sollte wahrscheinlich zugeben, dass ich keinen besonders guten konzeptionellen Überblick darüber habe, welche einfache spektrale Ebenheit gemessen wird (nur der Wikipedia-Artikel ), daher wäre jede weitere Erklärung dafür willkommen.

fft frequency-spectrum

— Daniel R Hicks
quelle

Sie erstellen also eine Berechnung und fragen, ob jemand anderes auf die gleiche Idee gekommen ist und sie benannt hat. Wenn nicht, kann jemand eine konzeptionelle Erklärung für das finden, was Sie sich ausgedacht haben? Sicherlich müssen Sie eine Begründung für Ihre "kleine Wendung" gehabt haben, oder haben Sie, wie Indiana Jones, es nur erfunden, als Sie weitergingen?

— Dilip Sarwate

Ich mache mir im Grunde nur Dinge aus, während ich weiter mache. Ich finde eine Technik, wende sie auf die Daten an, beobachte das Ergebnis und entscheide, ob es nützlich erscheint. Wenn ja, versuche ich zu verfeinern. Es ist ein langwieriger Prozess, aber der Audioanalyse-Experte, der an diesem Projekt arbeitet, hat seine Wahl gebrochen und ist nach Hause gegangen.

— Daniel R Hicks

Antworten:

Da Sie an der "Ebenheit" Ihres Spektrums interessiert sind, interessiert Sie tatsächlich, wie nahe Ihr Signal an einem weißen Rauschen liegt (das per Definition ein flaches Spektrum + zufällige Phasen aufweist). Wenn Sie zurücktreten, ist ein Maß der "Abstand" Ihrer Beobachtung zur Referenz für weißes Rauschen .

Das naheliegende Maß für die Informationstheorie ist die Kullback-Leibler-Divergenz . Sie nicht brauchen jeden Teil davon zu verstehen, aber es misst in Bits den Abstand zwischen den beiden Verteilungen (wenn Sie Log - Basis 2 verwenden).

Das Gute in Ihrem Fall ist, dass Ihre Referenz flach ist, so dass die Entropie Ihres Spektrums übrig bleibt . Es gibt viele vorhandene Implementierungen (zum Beispiel in scipy ).

Beachten Sie, dass Sie immer noch auf der sicheren Seite sind: Wenn Ihre Verteilung ungefähr Gauß ist, sind beide Maße (Entropie und Standard) proportional. Die Entropie ist jedoch allgemeiner und prinzipieller. Als Erweiterung können Sie auf andere Arten von Geräuschen verallgemeinern (z. B. 1 / f).

— meduz
quelle

Das Seltsame ist, dass "normale" Entropie - Summe von p log p- nicht viele Informationen für mein Problem zu vermitteln scheint. (Obwohl ich wahrscheinlich nicht versucht habe, die Standardabweichung zu nehmen.)

— Daniel R Hicks

Jeder zuverlässige konsistente Unterschied in der Statistik Ihres Signals (oder einer Funktion Ihres Signals, wie z. B. seines Spektrums) und dem Rauschen, in das Ihr Signal eingebettet ist, kann verwendet werden, um eine Wahrscheinlichkeit von einem gegenüber dem anderen zu schätzen.

Sie scheinen zufällig eine der wahrscheinlich unendlich vielen Möglichkeiten zur Charakterisierung der Signalspektrumform gefunden zu haben (auf die Sie gestoßen sind), die Ihr gewünschtes Signal von Dingen wie weißem Rauschen oder Impulsspitzen unterscheiden. Das Stolpern über eine zufällige mögliche Lösung macht sie nicht ungültig (das ist eine Grundlage der evolutionären / genetischen Programmierung). Aber wie robust eine Maßnahme ist, die Sie gefunden haben, bleibt als experimentelle Übung übrig.

— hotpaw2
quelle

Die Sache ist, andere Maßnahmen, wie die reguläre Entropie, haben nicht so vielversprechend gezeigt wie diese Maßnahme. Wenn ich verstehen könnte, warum dieser besser erscheint, könnte ich ihn vielleicht verbessern.

— Daniel R Hicks

hotpaw2, Sie erwähnen einige andere Möglichkeiten, wie man zwischen einem Signal und Rauschen unterscheiden kann - oder ein "Maß" für die Form eines FFT-Betragsspektrums - welche Möglichkeiten gibt es genau, die Ihnen in den Sinn kommen?

— Spacey

Genau in den Sinn kommen ??? Von evolutionären / genetischen / Hadoop-Suchalgorithmen wird manchmal gesagt, dass sie aus genügend Daten "Formen" abbauen, die weder in den Sinn kommen noch normalerweise als genau beschrieben werden, bis vielleicht nachträglich.

— hotpaw2

@ hotpaw2 Entschuldigung, vielleicht war meine Frage nicht klar - ich habe mich nur gefragt, welche einfachen Methoden zum Messen von beispielsweise "Peakiness" existieren könnten (als Beispiel dafür, wie ein Spektrum aussehen könnte). Ich habe nicht nach etwas zu Fantasievollem gefragt, obwohl diese unbeaufsichtigten Lernmethoden, die Sie erwähnt haben, sicherlich mächtig sind.

— Spacey