Probleme mit der Ausreißererkennung


8

In einem Blogbeitrag schreibt Andrew Gelman :

Die schrittweise Regression ist eines dieser Dinge, wie die Erkennung von Ausreißern und Kreisdiagramme, die bei Nicht-Statistikern beliebt zu sein scheinen, von Statistikern jedoch als Scherz angesehen werden.

Ich verstehe den Verweis auf Kreisdiagramme, aber warum wird laut Gelman die Statistik der Ausreißer von Statistikern abgelehnt? Ist es nur so, dass die Leute ihre Daten möglicherweise zu stark beschneiden?


2
Wenn Sie sich die Kommentare auf derselben Seite ansehen, auf die Sie verlinkt haben, finden Sie eine Antwort von Andrew selbst sowie weitere Diskussionen. Siehe zum Beispiel diesen Kommentar: andrewgelman.com/2014/06/02/hate-stepwise-regression/…
Jerome Baum

1
Das Detail hier über Statistiker gegenüber Nicht-Statistikern ist unglücklich. Wenn Sie beispielsweise die Abhandlung von Barnett und Lewis über Ausreißer durchsehen, werden Sie Test für Test sehen, der hauptsächlich von Statistikern vorgeschlagen wird, die sich auf unplausible Situationen konzentrieren. Es ist wahr, dass (z. B.) Menschen in der Physik oft noch alten Regeln folgen, die von Peirce und Chauvenet vorgeschlagen wurden, aber ein Großteil der Dummheit hier hängt auch mit Statistikern zusammen. Offenlegung: Ich bin kein Statistiker, und ich neige dazu zu glauben, dass Ausreißer oft echt sind und dass das Finden des richtigen Maßstabs für die Arbeit fast alle nachvollziehbar macht.
Nick Cox

@NickCox: Ich denke, Gelman hat sich möglicherweise auf verschiedene statistische und nicht statistische Gespräche bezogen. Wenn Sie beispielsweise böswilliges Verhalten in Netzwerken untersuchen, werden viele Nicht-Statistiker wegen der Erkennung von Ausreißern entlassen. "Natürlich möchte ich etwas über ungewöhnliches Verhalten wissen !!". Beim Lesen der statistischen Literatur beginnen und beenden viele Statistiker ihre Arbeiten. "Nun, das kann man machen und hier ist, aber ..."
Cliff AB

... oder alternativ sind Biologen oft damit einverstanden, Ausreißer fallen zu lassen, weil sie glauben, dass diese Ausreißer eher auf Verfahrensfehler als auf ein ungewöhnliches Ergebnis eines ordnungsgemäß durchgeführten Experiments zurückzuführen sind. Für sie klingt eine Prozedur, die automatisch Verfahrensfehler beseitigt, großartig, aber ein Statistiker ist nicht so zufrieden mit dem, was in der Praxis tatsächlich passiert.
Cliff AB

Antworten:


1

@ Jerome Baums Kommentar ist genau richtig. Um das Gelman-Zitat hierher zu bringen:

Ausreißererkennung kann eine gute Sache sein. Das Problem ist, dass Nicht-Statistiker sich gerne an das Wort „Ausreißer“ halten, ohne überhaupt über den Prozess nachzudenken, der den Ausreißer erzeugt. Einige Lehrbücher haben Regeln, die für Statistiker wie mich dumm aussehen, Regeln wie etwas als Ausreißer kennzeichnen, wenn es mehr als eine Anzahl von SDs aus dem Median oder was auch immer enthält. Das Konzept eines Ausreißers ist nützlich, aber ich denke, es erfordert Kontext. Wenn Sie etwas als Ausreißer bezeichnen, möchten Sie versuchen, ein Gefühl dafür zu bekommen, warum Sie das denken.

Um ein bisschen mehr hinzuzufügen, wie wäre es, wenn wir zuerst Ausreißer definieren . Versuchen Sie dies rigoros, ohne sich auf etwas Visuelles wie "sieht so aus, als wäre es weit von anderen Punkten entfernt" zu beziehen. Es ist eigentlich ziemlich schwer.

Ich würde sagen, dass ein Ausreißer ein Punkt ist, der angesichts eines Modells, wie Punkte generiert werden, höchst unwahrscheinlich ist. In den meisten Situationen haben die Leute kein Modell dafür, wie die Punkte generiert werden, oder wenn sie dies tun, ist es so stark vereinfacht, dass es die meiste Zeit falsch ist. Also, wie Andrew sagt, werden die Leute Dinge wie die Annahme machen, dass eine Art Gaußscher Prozess Punkte erzeugt. Wenn also ein Punkt mehr als eine bestimmte Anzahl von SDs vom Mittelwert entfernt ist, ist es ein Ausreißer. Mathematisch praktisch, nicht so prinzipiell.

Und wir haben noch nicht einmal verstanden, was Menschen mit Ausreißern machen, wenn sie identifiziert sind. Die meisten Menschen möchten diese unbequemen Punkte zum Beispiel wegwerfen. In vielen Fällen sind es die Ausreißer, die zu Durchbrüchen und Entdeckungen führen, nicht die Nicht-Ausreißer!

Es gibt eine Menge Ad-hoc-Probleme bei der Erkennung von Ausreißern, wie sie von Nicht-Statistikern praktiziert werden, und Andrew ist damit unzufrieden.


0

Dies zeigt das klassische Tauziehen zwischen den beiden Arten von Zielen für statistische Analysen wie die Regression: deskriptiv vs. prädiktiv. (Verzeihen Sie die Verallgemeinerungen in meinen Kommentaren unten.)

Aus Sicht des Statistikers ist die Beschreibung normalerweise wichtiger als die Vorhersage. Daher sind sie von Natur aus "voreingenommen" gegenüber Erklärungen. Warum gibt es einen Ausreißer? Ist es wirklich ein Fehler bei der Dateneingabe (zusätzliche Nullen am Ende eines Wertes) oder ist es ein gültiger Datenpunkt, der zufällig extrem ist? Dies sind wichtige Fragen für einen Statistiker.

OTOH, die Datenwissenschaftler interessieren sich eher für Vorhersage als für Beschreibung. Ihr Ziel ist es, ein starkes Modell zu entwickeln, mit dem sich zukünftige Ergebnisse (z. B. Kauf, Abrieb) hervorragend vorhersagen lassen. Wenn es in einem der Felder einen Extremwert gibt, würde ein Datenwissenschaftler diesen Wert gerne auf den Wert des 98. Perzentils begrenzen, wenn dies zur Verbesserung der Vorhersagegenauigkeit des Modells beiträgt.

Ich habe keine generelle Neigung zu einem dieser beiden Ansätze. Ob die Methoden / Ansätze wie schrittweise Regression und Ausreißerbehandlung "ein Witz" sind oder nicht, hängt jedoch davon ab, auf welcher Seite des Zauns Sie stehen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.