Wo ist eine Dichteschätzung sinnvoll?

Nachdem ich ein wenig knappe Mathematik durchlaufen habe, denke ich, dass ich eine leichte Intuition für die Schätzung der Kerneldichte habe. Mir ist aber auch bewusst, dass die Schätzung der multivariaten Dichte für mehr als drei Variablen im Hinblick auf die statistischen Eigenschaften ihrer Schätzer möglicherweise keine gute Idee ist.

In welchen Situationen sollte ich beispielsweise die bivariate Dichte mit nichtparametrischen Methoden schätzen wollen? Lohnt es sich, sich Gedanken darüber zu machen, ob es mehr als zwei Variablen gibt?

Wenn Sie auf einige nützliche Links zur Anwendung der Schätzung der multivariaten Dichte verweisen können, wäre das großartig.

— Lovekesh
quelle

Antworten:

Ein typischer Fall für die Anwendung der Dichteschätzung ist die Neuheitserkennung, auch bekannt als Ausreißererkennung, bei der nur (oder meistens) Daten eines Typs vorliegen, Sie sich jedoch für sehr seltene, qualitativ unterschiedliche Daten interessieren, die erheblich von diesen abweichen diese häufigen Fälle.

Beispiele sind Betrugserkennung, Erkennung von Systemfehlern usw. Dies sind Situationen, in denen es sehr schwierig und / oder kostspielig ist, Daten der Art zu erfassen, an der Sie interessiert sind. Diese seltenen Fälle, dh Fälle mit geringer Eintrittswahrscheinlichkeit.

In den meisten Fällen interessiert es Sie nicht, die exakte Verteilung genau zu schätzen, sondern die relativen Chancen (wie wahrscheinlich ist es, dass eine bestimmte Stichprobe ein tatsächlicher Ausreißer ist, im Gegensatz dazu, dass Sie keine ist).

Es gibt Dutzende von Tutorials und Rezensionen zum Thema. Das eine könnte eine gute sein , mit zu beginnen.

BEARBEITEN: Für einige Leute scheint es seltsam, eine Dichteschätzung zur Erkennung von Ausreißern zu verwenden. Lassen Sie uns zunächst eines vereinbaren: Wenn jemand ein Mischungsmodell an seine Daten anpasst, führt er tatsächlich eine Dichteschätzung durch. Ein Mischungsmodell repräsentiert eine Wahrscheinlichkeitsverteilung.

kNN und GMM hängen tatsächlich zusammen: Sie sind zwei Methoden zur Schätzung einer solchen Wahrscheinlichkeitsdichte. Dies ist die Grundidee für viele Ansätze in der Neuheitserkennung. Zum Beispiel dieses basierend auf kNNs, dieser andere basierend auf Parzen - Fenster (die eben diese Idee am Anfang des Papiers betonen) und viele andere .

Es scheint mir (aber es ist nur meine persönliche Wahrnehmung), dass die meisten, wenn nicht alle an dieser Idee arbeiten. Wie würden Sie die Idee eines ungewöhnlichen / seltenen Ereignisses ausdrücken?

— jpmuc
quelle

Das von Ihnen beschriebene Notenset (Abschnitt 6, "Dichtebasierter Ansatz") beschreibt einige sehr esoterische Ansätze zur Erkennung von Ausreißern. Sicherlich müssen häufigere Anwendungen vorhanden sein.

— user603

Entschuldigung, ich verstehe Ihren Kommentar nicht. Zwei sehr grundlegende Beispiele wären kNN und GMM. Diese beiden Methoden liefern Schätzungen der Wahrscheinlichkeitsdichte und können für solche Fälle verwendet werden.

— jpmuc

Vielen Dank. Was ist GMM? Ich denke nicht, dass kNN eine Mittelwertmethode für die Erkennung von Ausreißern ist. Können Sie sich auf ein aktuelles Lehrbuch über robuste Statistiken beziehen, in dem es in diesem Zusammenhang verwendet wird? (Ich habe mir die Papiere im

— Foliensatz

GMM = Gaußsches Mischungsmodell. In den Folien beziehen sie sich auf Bewertungen, die auf kNNs basieren. Ich persönlich habe SVMs zur netten Erkennung verwendet. Leider kann ich Ihnen kein konkretes Lehrbuch empfehlen. Vielleicht reichen diese Notizen ( stats.ox.ac.uk/pub/StatMeth/Robust.pdf ) aus.

— jpmuc

Ich bin mit @ user603 einverstanden. Die Dichteschätzung ist auf den ersten Blick eine sehr seltsame und indirekte Methode, um Ausreißer zu finden. Um Ihre Antwort zu verbessern, fassen Sie zusammen, wie dies in der Praxis angewendet wird - und warum es Ihrer Meinung nach gut funktioniert.

— Nick Cox

Ich vermute, dass der Mean-Shift-Algorithmus ( http://en.wikipedia.org/wiki/Mean-shift ) ein gutes Beispiel für eine effiziente und geeignete Anwendung von KDE ist. Der Zweck dieses Algorithmus besteht darin, die Maxima einer Dichtefunktion bei gegebenen Daten zu lokalisieren. $(x_i)$

f_{h} (x) \propto \sum_{x_{ich}} \exp (- (x_{ich} - x)^{T} Σ^{- 1} (x_{ich} - x)),

$f_h(x) \propto \sum_{x_i} \exp( -(x_{i}-x)^{T}\Sigma^{-1} (x_{i}-x)),$ wo

Σ^{- 1}

$\Sigma^{-1}$ ist eine Kovarianzmatrix (meistens geschätzt). Dieser Algorithmus wird häufig bei Clustering - Aufgaben verwendet, wenn die Anzahl der Komponenten unbekannt ist: Jeder erkannte Modus ist ein Cluster - Schwerpunkt, und je näher eine Stichprobe an einem Modus liegt, desto wahrscheinlicher ist es, dass er zum entsprechenden Cluster gehört (alles wird durch die Form von richtig gewichtet) rekonstruierte Dichte). Die Beispieldaten

x_{i}

$x_i$ haben normalerweise eine Abmessung von mehr als eins: Um beispielsweise eine 2D-Farbbildsegmentierung durchzuführen, können die Abtastwerte für (RComponent, GComponent, BComponent, xPosition, yPosition) 5d betragen.

— peuhp
quelle

Typischerweise wird KDE als Alternative zu Histogrammen angepriesen. Der Hauptvorteil von KDE gegenüber Histogrammen besteht in diesem Zusammenhang darin, die Auswirkungen willkürlich gewählter Parameter auf die visuelle Ausgabe des Verfahrens zu verringern. Insbesondere (und wie im obigen Link dargestellt) muss der Benutzer in KDE keine Start- und Endpunkte angeben.

— user603
quelle