Ich möchte den Unterschied in Bezug auf Anwendungen (z. B. welche ist die Erkennung von Kreditkartenbetrug?) Und in Bezug auf verwendete Techniken kennen.
Beispielpapiere, die die Aufgabe definieren, wären willkommen.
Ich möchte den Unterschied in Bezug auf Anwendungen (z. B. welche ist die Erkennung von Kreditkartenbetrug?) Und in Bezug auf verwendete Techniken kennen.
Beispielpapiere, die die Aufgabe definieren, wären willkommen.
Antworten:
Grundsätzlich gibt es keinen Unterschied. Angenommen, Sie haben Daten und möchten ein Modell davon erstellen. Wie der Name schon sagt, geht es bei der Modellierung darum, ein Modell zu finden, dh eine vereinfachte Darstellung Ihrer Daten. Im Gegenzug können wir das Modell als einen zugrunde liegenden Prozess betrachten, der Ihre Daten überhaupt erst generiert hat, plus etwas Rauschen. Unter diesem Gesichtspunkt wurden die angezeigten Daten vom Modell generiert - und wir können sagen, dass einige der angezeigten Punkte weniger wahrscheinlich von Ihrem Modell generiert wurden als andere.
Wenn Sie beispielsweise ein lineares Regressionsmodell erstellen, ist es weniger wahrscheinlich, dass Punkte, die weit von der Regressionslinie entfernt sind, vom Modell generiert wurden. Das ist es, was Menschen meinen, wenn sie im normalen statistischen Sprachgebrauch von „Residuen“ sprechen. Es wird auch die Wahrscheinlichkeit der Daten genannt.
Datenpunkte mit geringer Wahrscheinlichkeit sind gemäß dem von Ihnen erstellten Modell Anomalien oder Ausreißer. Aus modellbildender Sicht sind sie dasselbe.
Umgangssprachlich verwenden die Leute den Begriff "Ausreißer", um "etwas zu bedeuten, das ich aus dem Datensatz entfernen sollte, damit es mein Modell, das ich baue, nicht verzerrt", normalerweise, weil sie die Vermutung haben, dass mit diesen Daten und den Daten etwas nicht stimmt Das Modell, das sie erstellen möchten, sollte dies nicht berücksichtigen müssen. Ein Ausreißer wird oft als Hindernis für die Erstellung eines Modells angesehen, das die Daten insgesamt beschreibt - einfach, weil das Modell AUCH versucht, den Ausreißer zu erklären, was der Praktiker nicht wünscht.
Auf der anderen Seite können Sie die Tatsache nutzen, dass ein Modell jedem Datenpunkt zu Ihrem Vorteil auch eine Wahrscheinlichkeit zuweist. Sie können ein Modell erstellen, das einen einfacheren Trend in den Daten beschreibt, und dann aktiv nach vorhandenen oder neuen Werten suchen , die sehr viel haben geringe Wahrscheinlichkeit. Das meinen die Leute, wenn sie "Anomalien" sagen. Wenn es Ihr Ziel ist, Anomalien zu erkennen, insbesondere bei neuen Daten, ist dies eine großartige Sache. Der Ausreißer einer Person ist die Anomalie einer anderen Person!
(Ich wollte dies eigentlich als Antwort auf die Kreuzvalidierte Frage schreiben : Unterschied zwischen Anomalie und Ausreißer , aber die Frage ist geschützt - ich denke, die Beantwortung hier sollte trotz der geringeren Sichtbarkeit in Ordnung sein.)
Gelegentlich wird unter Berufung auf Charu Aggarwal, Autor des Buches "Ausreißeranalyse", argumentiert, dass es keinen Unterschied zwischen einem Ausreißer und einer Anomalie gibt - insbesondere diese Aussage:
Ausreißer werden in der Data Mining- und Statistikliteratur auch als Anomalien , Diskordanzen , Abweichungen oder Anomalien bezeichnet .
(Quelle: "Ausreißeranalyse" (Springer), Charu Aggarwal, 2017, http://charuaggarwal.net/outlierbook.pdf )
Diese Aussage bedeutet jedoch nicht , dass Ausreißer und Anomalien dasselbe sind - analog zu der Aussage, dass "Hunde manchmal als Tiere bezeichnet werden", bedeutet dies nicht, dass sie dasselbe sind.
Es ist schwierig, eine formale Definition der Begriffe zu geben. Die Wikipedia-Seite über Ausreißer verweist auf die Wikipedia-Seite über die Erkennung von Anomalien und umgekehrt. Beide enthalten viele mögliche Definitionen und Interpretationen der Begriffe. Die Dinge werden aufgrund der domänenspezifischen Definitionen und Umgangssprachen immer schlimmer , wo es ausreichend zu sein scheint, wenn zwei Personen desselben Fachgebiets ungefähr wissen, wovon der andere spricht ...
Varun Chandola versucht jedoch, dem Begriff "Anomalie" in seiner Umfrage zur Erkennung von Anomalien eine genauere Bedeutung zu geben. Insbesondere klassifiziert er Anomalien in drei Kategorien:
(Zusammengefasst aus "Anomalieerkennung - Eine Umfrage", Varun Chandola et al., ACM Computing Surveys 2009, http://cucis.ece.northwestern.edu/projects/DMS/publications/AnomalyDetection.pdf )
Hier scheint der Begriff "Punktanomalie" dem am nächsten zu kommen, was ich als mögliche Definition des Wortes "Ausreißer" betrachten würde. Und das steht im Einklang mit der Aussage von Aggarwal: Ein Ausreißer ist eine Anomalie. Aber nicht jede Anomalie ist ein Ausreißer.
(Letzteres kann von der Definition des Wortes Ausreißer abhängen. Natürlich kann man es auf Metaebene definieren und sagen, dass ein Ausreißer das ist, was ein bestimmter Ausreißererkennungsalgorithmus (oder -modell) als solches erkennt. Aber die meisten Definitionen, die dies tun Ich bin bisher auf eine Art "Distanz", "Unähnlichkeit" oder "Unterschied" zu einer "Mehrheit" anderer Datenelemente gestoßen. Das klingt vernünftig ...)
Ein Beispiel: Es können mehrere Datenpunkte vorhanden sein:
14.5, 14.2, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6
Man kann den Mittelwert und die Standardabweichung berechnen und wird es schwer haben zu argumentieren, warum einer dieser Punkte ein "Ausreißer" sein sollte.
Für eine Folge von Datenpunkten wie diesen
14.5, 14.2, 14.4, 14.4, -64564.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6
"Der Ausreißer" zu erkennen sollte einfach sein.
Jedoch unter der Annahme, daß die erste Folge beschreibt zum Beispiel durchschnittliche tägliche Außentemperaturen, die Tatsache , dass die exakt gleiche durchschnittliche Temperatur von 14.4
Grad für eine ganze Woche lang gemessen wurde , könnte sicherlich als „Anomalie“ in Betracht gezogen werden.
(Wahrscheinlich eine "kollektive Anomalie" gemäß den obigen Definitionen, aber darüber werde ich nicht streiten ...)
Obwohl ich mich auf dünnem Eis befinde, wenn ich über die genaue oder intuitive Bedeutung bestimmter Begriffe streite (weil ich weder ein Experte für Datenwissenschaften noch ein englischer Muttersprachler bin), würde dies bedeuten, dass "Anomalie" ein viel weiter gefasster Begriff ist als "Ausreißer" ". Aber vielleicht ist die Data Science-Community gerade dabei, die richtigen Definitionen dieser Begriffe zu finden.
Aktualisieren:
Vielleicht ist mein Bauchgefühl über die wörtliche Bedeutung bestimmter Wörter falsch. Aber für mich scheint das Wort "Ausreißer" zu sagen "irgendwo außerhalb von (oder weit weg von) etwas liegen (basierend auf einem Entfernungsmaß)". In diesem Sinne sind die 14.4
s im ersten Beispiel an sich keine "Ausreißer". Aber natürlich wird es hier sehr schnell schwierig: Man könnte sich ein Modell für die Daten vorstellen, das die Anzahl aufeinanderfolgender Tage mit gleichen Temperaturen enthält (wie bei einer Lauflängencodierung ). Die Berechnung dieses Modells für die angegebenen Daten würde ergeben
1 * 14.5
1 * 14.2
7 * 14.4
1 * 14.3
1 * 14.2
1 * 14.6
wobei der Wert 7
tut großen Abstand (Differenz) zu den anderen Werten in dem Modell. Die "kollektive Anomalie" von 7 aufeinanderfolgenden Tagen bei gleichen Temperaturen wurde durch diese Transformation zu einer "Punktanomalie".
Ein Ausreißer ist ein Datenpunkt, der relativ ungewöhnlich ist.
Eine Anomalie ist ein Sonderfall von Ausreißern, die spezielle / nützliche Informationen oder Gründe haben können.