Was ist der Unterschied zwischen Ausreißererkennung und Anomalieerkennung?

Ich möchte den Unterschied in Bezug auf Anwendungen (z. B. welche ist die Erkennung von Kreditkartenbetrug?) Und in Bezug auf verwendete Techniken kennen.

Beispielpapiere, die die Aufgabe definieren, wären willkommen.

— Martin Thoma
quelle

Hast du dir das angesehen? stats.stackexchange.com/questions/189664/… . Es scheint, dass die Antwort auf Ihre Frage da ist.

— Moh

@ Oh, ich habe es gesehen und ich denke, die Antworten sind nicht sehr klar. Aus diesem Grund habe ich darum gebeten, dass Anwendungen und Techniken in die Antwort auf meine Frage aufgenommen werden.

— Martin Thoma

Insbesondere scheint es keinen Konsens zu geben, ob diese beiden Begriffe unterschiedliche Bedeutungen haben oder nicht. Mal sehen, ob diese Community einen Konsens / maßgebliche Ressourcen findet.

— Martin Thoma

Grundsätzlich gibt es keinen Unterschied. Angenommen, Sie haben Daten und möchten ein Modell davon erstellen. Wie der Name schon sagt, geht es bei der Modellierung darum, ein Modell zu finden, dh eine vereinfachte Darstellung Ihrer Daten. Im Gegenzug können wir das Modell als einen zugrunde liegenden Prozess betrachten, der Ihre Daten überhaupt erst generiert hat, plus etwas Rauschen. Unter diesem Gesichtspunkt wurden die angezeigten Daten vom Modell generiert - und wir können sagen, dass einige der angezeigten Punkte weniger wahrscheinlich von Ihrem Modell generiert wurden als andere.

Wenn Sie beispielsweise ein lineares Regressionsmodell erstellen, ist es weniger wahrscheinlich, dass Punkte, die weit von der Regressionslinie entfernt sind, vom Modell generiert wurden. Das ist es, was Menschen meinen, wenn sie im normalen statistischen Sprachgebrauch von „Residuen“ sprechen. Es wird auch die Wahrscheinlichkeit der Daten genannt.

Datenpunkte mit geringer Wahrscheinlichkeit sind gemäß dem von Ihnen erstellten Modell Anomalien oder Ausreißer. Aus modellbildender Sicht sind sie dasselbe.

Umgangssprachlich verwenden die Leute den Begriff "Ausreißer", um "etwas zu bedeuten, das ich aus dem Datensatz entfernen sollte, damit es mein Modell, das ich baue, nicht verzerrt", normalerweise, weil sie die Vermutung haben, dass mit diesen Daten und den Daten etwas nicht stimmt Das Modell, das sie erstellen möchten, sollte dies nicht berücksichtigen müssen. Ein Ausreißer wird oft als Hindernis für die Erstellung eines Modells angesehen, das die Daten insgesamt beschreibt - einfach, weil das Modell AUCH versucht, den Ausreißer zu erklären, was der Praktiker nicht wünscht.

Auf der anderen Seite können Sie die Tatsache nutzen, dass ein Modell jedem Datenpunkt zu Ihrem Vorteil auch eine Wahrscheinlichkeit zuweist. Sie können ein Modell erstellen, das einen einfacheren Trend in den Daten beschreibt, und dann aktiv nach vorhandenen oder neuen Werten suchen , die sehr viel haben geringe Wahrscheinlichkeit. Das meinen die Leute, wenn sie "Anomalien" sagen. Wenn es Ihr Ziel ist, Anomalien zu erkennen, insbesondere bei neuen Daten, ist dies eine großartige Sache. Der Ausreißer einer Person ist die Anomalie einer anderen Person!

— Tom
quelle

_{(Ich wollte dies eigentlich als Antwort auf die Kreuzvalidierte Frage schreiben : Unterschied zwischen Anomalie und Ausreißer , aber die Frage ist geschützt - ich denke, die Beantwortung hier sollte trotz der geringeren Sichtbarkeit in Ordnung sein.)}

Gelegentlich wird unter Berufung auf Charu Aggarwal, Autor des Buches "Ausreißeranalyse", argumentiert, dass es keinen Unterschied zwischen einem Ausreißer und einer Anomalie gibt - insbesondere diese Aussage:

Ausreißer werden in der Data Mining- und Statistikliteratur auch als Anomalien , Diskordanzen , Abweichungen oder Anomalien bezeichnet .

_{(Quelle: "Ausreißeranalyse" (Springer), Charu Aggarwal, 2017, http://charuaggarwal.net/outlierbook.pdf )}

Diese Aussage bedeutet jedoch nicht , dass Ausreißer und Anomalien dasselbe sind - analog zu der Aussage, dass "Hunde manchmal als Tiere bezeichnet werden", bedeutet dies nicht, dass sie dasselbe sind.

Es ist schwierig, eine formale Definition der Begriffe zu geben. Die Wikipedia-Seite über Ausreißer verweist auf die Wikipedia-Seite über die Erkennung von Anomalien und umgekehrt. Beide enthalten viele mögliche Definitionen und Interpretationen der Begriffe. Die Dinge werden aufgrund der domänenspezifischen Definitionen und Umgangssprachen immer schlimmer , wo es ausreichend zu sein scheint, wenn zwei Personen desselben Fachgebiets ungefähr wissen, wovon der andere spricht ...

Varun Chandola versucht jedoch, dem Begriff "Anomalie" in seiner Umfrage zur Erkennung von Anomalien eine genauere Bedeutung zu geben. Insbesondere klassifiziert er Anomalien in drei Kategorien:

Punktanomalien: Eine einzelne Dateninstanz kann in Bezug auf den Rest der Daten als anomal angesehen werden
Kontextanomalien: Wenn eine Dateninstanz in einem bestimmten Kontext anomal ist (aber nicht anders)
Kollektive Anomalien: Wenn eine Sammlung verwandter Dateninstanzen in Bezug auf den gesamten Datensatz anomal ist

_{(Zusammengefasst aus "Anomalieerkennung - Eine Umfrage", Varun Chandola et al., ACM Computing Surveys 2009, http://cucis.ece.northwestern.edu/projects/DMS/publications/AnomalyDetection.pdf )}

Hier scheint der Begriff "Punktanomalie" dem am nächsten zu kommen, was ich als mögliche Definition des Wortes "Ausreißer" betrachten würde. Und das steht im Einklang mit der Aussage von Aggarwal: Ein Ausreißer ist eine Anomalie. Aber nicht jede Anomalie ist ein Ausreißer.

_{(Letzteres kann von der Definition des Wortes Ausreißer abhängen. Natürlich kann man es auf Metaebene definieren und sagen, dass ein Ausreißer das ist, was ein bestimmter Ausreißererkennungsalgorithmus (oder -modell) als solches erkennt. Aber die meisten Definitionen, die dies tun Ich bin bisher auf eine Art "Distanz", "Unähnlichkeit" oder "Unterschied" zu einer "Mehrheit" anderer Datenelemente gestoßen. Das klingt vernünftig ...)}

Ein Beispiel: Es können mehrere Datenpunkte vorhanden sein:

14.5, 14.2, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6

Man kann den Mittelwert und die Standardabweichung berechnen und wird es schwer haben zu argumentieren, warum einer dieser Punkte ein "Ausreißer" sein sollte.

Für eine Folge von Datenpunkten wie diesen

14.5, 14.2, 14.4, 14.4, -64564.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6

"Der Ausreißer" zu erkennen sollte einfach sein.

Jedoch unter der Annahme, daß die erste Folge beschreibt zum Beispiel durchschnittliche tägliche Außentemperaturen, die Tatsache , dass die exakt gleiche durchschnittliche Temperatur von 14.4Grad für eine ganze Woche lang gemessen wurde , könnte sicherlich als „Anomalie“ in Betracht gezogen werden.

^{(Wahrscheinlich eine "kollektive Anomalie" gemäß den obigen Definitionen, aber darüber werde ich nicht streiten ...)}

Obwohl ich mich auf dünnem Eis befinde, wenn ich über die genaue oder intuitive Bedeutung bestimmter Begriffe streite (weil ich weder ein Experte für Datenwissenschaften noch ein englischer Muttersprachler bin), würde dies bedeuten, dass "Anomalie" ein viel weiter gefasster Begriff ist als "Ausreißer" ". Aber vielleicht ist die Data Science-Community gerade dabei, die richtigen Definitionen dieser Begriffe zu finden.

Aktualisieren:

Vielleicht ist mein Bauchgefühl über die wörtliche Bedeutung bestimmter Wörter falsch. Aber für mich scheint das Wort "Ausreißer" zu sagen "irgendwo außerhalb von (oder weit weg von) etwas liegen (basierend auf einem Entfernungsmaß)". In diesem Sinne sind die 14.4s im ersten Beispiel an sich keine "Ausreißer". Aber natürlich wird es hier sehr schnell schwierig: Man könnte sich ein Modell für die Daten vorstellen, das die Anzahl aufeinanderfolgender Tage mit gleichen Temperaturen enthält (wie bei einer Lauflängencodierung ). Die Berechnung dieses Modells für die angegebenen Daten würde ergeben

1 * 14.5
1 * 14.2
7 * 14.4
1 * 14.3
1 * 14.2
1 * 14.6

wobei der Wert 7 tut großen Abstand (Differenz) zu den anderen Werten in dem Modell. Die "kollektive Anomalie" von 7 aufeinanderfolgenden Tagen bei gleichen Temperaturen wurde durch diese Transformation zu einer "Punktanomalie".

— Marco13
quelle

Sehr informativ. Was hindert uns daran, "Punktausreißer", "kontextbezogene Ausreißer" und "kollektive Ausreißer" zu verwenden? Ich denke, nichts erzwingt eine Unterscheidung.

— Esmailian

@Esmailian Ich denke, dass die Unterscheidung zwischen "Ausreißer" und "Anomalie" Sinn machen kann . Eine genaue Definition jedes dieser Begriffe, die in jedem Kontext anwendbar ist, kann jedoch schwierig (oder möglicherweise unmöglich) sein. Ich habe ein kurzes Update hinzugefügt, das darauf hinweist, was meine Interpretation / Definition des Wortes "Ausreißer" ist und wie schwierig es sein kann, eine solche Definition rigoros anzuwenden ...

— Marco13

Das Problem dabei ist, dass es sich um eine subjektive Interpretation handelt. Wenn Sie den Unterschied mit genauen Zitaten unterstreichen könnten, wäre dies viel hilfreicher.

— Code Papst

@CodePope Worauf bezieht sich das genau? Ich fügte vier "Zitate" hinzu, wies aber darauf hin, dass selbst die am häufigsten verwendeten Definitionen vage sind und sich manchmal sogar widersprechen.

— Marco13

Natürlich haben Sie vier Zitate hinzugefügt, aber keines davon besagt, dass es einen Unterschied zwischen Ausreißer und Anomalie gibt oder dass Ausreißer ein Unterelement der Anomalie ist. Darüber hinaus stimmt keines Ihrer Zitate und jedes andere Papier, das ich gelesen habe, mit Ihrer Interpretation überein, dass Ausreißer Punktanomalien sind. Es ist die übliche Intuition, dass Ausreißer einzelne Punkte sind, aber dies ist nicht das, was formale Definitionen implizieren. Als Beispiel: "Eine Beobachtung (oder Teilmenge von Beobachtungen), die mit dem Rest dieser Datenmenge nicht übereinstimmt." (Barnet und Lewis - 1994)

— Code Pope

Ein Ausreißer ist ein Datenpunkt, der relativ ungewöhnlich ist.

Eine Anomalie ist ein Sonderfall von Ausreißern, die spezielle / nützliche Informationen oder Gründe haben können.

— Jatin Gupta
quelle