Was ist der Unterschied zwischen Outlier und Anomaly im Kontext des maschinellen Lernens? Meines Wissens beziehen sich beide auf dasselbe.
Was ist der Unterschied zwischen Outlier und Anomaly im Kontext des maschinellen Lernens? Meines Wissens beziehen sich beide auf dasselbe.
Antworten:
Die beiden Begriffe sind Synonyme gemäß:
Aggarwal, Charu C. Ausreißeranalyse. Springer New York, 2017, doi: http://dx.doi.org/10.1007/978-3-319-47578-3_1
Zitat von Seite 1:
Ausreißer werden in der Data Mining- und Statistikliteratur auch als Anomalien, Diskordanzen, Abweichungen oder Anomalien bezeichnet .
Fett gedruckter Text ist nicht Teil des Originaltexts.
Das vom Autor kostenlos zum Download zur Verfügung gestellte PDF des Buches finden Sie hier.
Eine augenzwinkernde Antwort:
Ausreißer: Ein Wert, den Sie vorhersehbar in Ihren Daten finden und der angibt, dass Ihr Modell nicht ordnungsgemäß funktioniert
Anomalie: Ein Wert, der trotz aller Widrigkeiten in Ihren Daten anzeigt, dass Ihr Modell ordnungsgemäß funktioniert
Eine ernstere, weniger kryptische Antwort:
Das Konzept der Ausreißer beginnt mit der Erstellung eines Modells, das Annahmen über die Daten trifft. Ausreißer sind häufig Indikatoren dafür, dass das Modell die Daten nicht richtig beschreibt, und daher sollten wir die Ergebnisse unseres Modells oder die Qualität unserer Daten in Frage stellen.
Das Konzept von Anomalien beginnt außerhalb der theoretischen Welt und innerhalb der angewandten Welt: Wir möchten in unseren Daten nach ungewöhnlichem Verhalten suchen, manchmal motiviert durch die Tatsache, dass wir daran interessiert sind, ein Verhalten zu finden, das jemand zu verbergen versucht (wie ein Virus in einem Virus) Email). Das Problem ist, dass wir nicht genau wissen, wonach wir suchen, da die Leute versuchen, ihre Handlungen zu verbergen. Wir nehmen also eine Reihe von "guten" Daten und stellen fest, dass alles, was in unserem neuen Dataset nicht "gut" aussieht, eine Anomalie ist und es wert ist, dass wir uns die Zeit nehmen, es genauer anzusehen. Wenn Sie nach Anomalien suchen, müssen Sie häufig nach Ausreißern in Ihrem neuen Datensatz suchen. Beachten Sie jedoch, dass diese Werte in Ihrem neuen Datensatz sehr häufig vorkommen können, obwohl sie in Ihrem alten Datensatz selten vorkommen!
Zusammenfassend sind sich die beiden Konzepte in der Statistik sehr ähnlich (dh ungewöhnliche Werte für Ihr angepasstes Modell), kommen aber aus unterschiedlichen Blickwinkeln auf die Idee. Wenn wir über Ausreißer sprechen, meinen wir normalerweise einen ungewöhnlichen Datenpunkt in den Daten, die für unser Modell verwendet werden , wobei eine Anomalie normalerweise als ungewöhnlicher Datenpunkt in einem Datensatz außerhalb der Daten gemeint ist, die für unser Modell verwendet werden .
Hinweis: Diese Antwort basiert darauf, wie ich die beiden häufig verwendeten Begriffe und nicht die formalen Definitionen gesehen habe. Benutzererfahrungen können abweichen.
Eine Anomalie ist ein Ergebnis, das aufgrund der Basisverteilung nicht erklärt werden kann (eine Unmöglichkeit, wenn unsere Annahmen richtig sind). Ein Ausreißer ist aufgrund der Basisverteilung ein unwahrscheinliches Ereignis (eine Unwahrscheinlichkeit).
Die Begriffe werden weitgehend austauschbar verwendet. "Ausreißer" bezieht sich auf etwas, das außerhalb der Norm liegt - es ist also "anomal". Aber ich habe den Eindruck, dass "Ausreißer" normalerweise für sehr seltene Beobachtungen verwendet wird. In der Statistik würden Sie bei einer Normalverteilung drei Sigma als Ausreißer betrachten. Das sind 99,7% Ihrer Objekte, von denen erwartet wird, dass sie "normal" sind. "Anomaly" wird viel großzügiger verwendet. Wenn Sie plötzlich Millionen von Besuchern auf Ihrer Website haben, sind dies keine seltenen Besucher. Die plötzliche Zunahme der Besucher ist jedoch immer noch "anomal", während jeder einzelne Besucher kein "Ausreißer" ist.
Möglicherweise habe ich in diesem Artikel diese Unterschiede besprochen, aber ich kann momentan leider nicht darauf zugreifen.
Statistische Analyse und Data Mining, Band 5, Ausgabe 5, Oktober 2012, Seiten 363–387 Eine Umfrage zur unbeaufsichtigten Erkennung von Ausreißern in hochdimensionalen numerischen Daten
Nur um das Wasser weiter zu trüben, impliziert eine klimatologische Anomalie nur den Unterschied zwischen Wert und Mittelwert oder eine Abweichung:
Der Begriff Temperaturanomalie bedeutet eine Abweichung von einem Referenzwert oder einem langfristigen Mittelwert. Eine positive Anomalie zeigt an, dass die beobachtete Temperatur wärmer als der Referenzwert war, während eine negative Anomalie anzeigt, dass die beobachtete Temperatur kühler als der Referenzwert war.
Das kann durchaus als außerhalb des maschinellen Lernens betrachtet werden, aber Leute, die an der Frage interessiert sind, könnten daran interessiert sein.
Eine Anomalie kann ein Datenpunkt sein oder auch ein allgemeiner Trend oder ein allgemeines Verhalten, das in Daten beobachtet wird, nachdem bereits ein Modell erstellt wurde oder ein Verständnis des Datenerzeugungsprozesses hergestellt wurde. Sie stoßen auf Anomalien, weil sich das System anders verhält, oder Sie suchen nach solchen Datenpunkten, weil Sie informiert werden möchten, wenn ein Ereignis eintritt, bei dem Ihr Modell ungültig ist. Möglicherweise möchten Sie ein anormales Verhalten in den Amplituden der Meereswellen beobachten, nicht weil Sie diese Datenpunkte wegwerfen und ein besseres Modell erstellen möchten, sondern weil Sie wissen möchten, wann ein Tsunami stattfinden könnte.