@ Jerome Baums Kommentar ist genau richtig. Um das Gelman-Zitat hierher zu bringen:
Ausreißererkennung kann eine gute Sache sein. Das Problem ist, dass Nicht-Statistiker sich gerne an das Wort „Ausreißer“ halten, ohne überhaupt über den Prozess nachzudenken, der den Ausreißer erzeugt. Einige Lehrbücher haben Regeln, die für Statistiker wie mich dumm aussehen, Regeln wie etwas als Ausreißer kennzeichnen, wenn es mehr als eine Anzahl von SDs aus dem Median oder was auch immer enthält. Das Konzept eines Ausreißers ist nützlich, aber ich denke, es erfordert Kontext. Wenn Sie etwas als Ausreißer bezeichnen, möchten Sie versuchen, ein Gefühl dafür zu bekommen, warum Sie das denken.
Um ein bisschen mehr hinzuzufügen, wie wäre es, wenn wir zuerst Ausreißer definieren . Versuchen Sie dies rigoros, ohne sich auf etwas Visuelles wie "sieht so aus, als wäre es weit von anderen Punkten entfernt" zu beziehen. Es ist eigentlich ziemlich schwer.
Ich würde sagen, dass ein Ausreißer ein Punkt ist, der angesichts eines Modells, wie Punkte generiert werden, höchst unwahrscheinlich ist. In den meisten Situationen haben die Leute kein Modell dafür, wie die Punkte generiert werden, oder wenn sie dies tun, ist es so stark vereinfacht, dass es die meiste Zeit falsch ist. Also, wie Andrew sagt, werden die Leute Dinge wie die Annahme machen, dass eine Art Gaußscher Prozess Punkte erzeugt. Wenn also ein Punkt mehr als eine bestimmte Anzahl von SDs vom Mittelwert entfernt ist, ist es ein Ausreißer. Mathematisch praktisch, nicht so prinzipiell.
Und wir haben noch nicht einmal verstanden, was Menschen mit Ausreißern machen, wenn sie identifiziert sind. Die meisten Menschen möchten diese unbequemen Punkte zum Beispiel wegwerfen. In vielen Fällen sind es die Ausreißer, die zu Durchbrüchen und Entdeckungen führen, nicht die Nicht-Ausreißer!
Es gibt eine Menge Ad-hoc-Probleme bei der Erkennung von Ausreißern, wie sie von Nicht-Statistikern praktiziert werden, und Andrew ist damit unzufrieden.