Erkennen von Ausreißern anhand von Standardabweichungen


27

Wenn ich hier meine Frage beantworte , frage ich mich, ob es starke Ansichten für oder gegen die Verwendung der Standardabweichung zur Erkennung von Ausreißern gibt (z. B. ist jeder Datenpunkt mit mehr als 2 Standardabweichungen ein Ausreißer).

Ich weiß, dass dies vom Kontext der Studie abhängt, zum Beispiel wird ein Datenpunkt von 48 kg sicherlich ein Ausreißer in einer Studie zum Gewicht von Babys sein, aber nicht in einer Studie zum Gewicht von Erwachsenen.

Ausreißer sind das Ergebnis einer Reihe von Faktoren, z. B. Eingabefehler. In meinem Fall sind diese Prozesse robust.

Ich schätze, die Frage, die ich stelle, lautet: Ist die Verwendung der Standardabweichung eine gute Methode zur Erkennung von Ausreißern?


1
Sie sagen: "In meinem Fall sind diese Prozesse robust". Was soll das heißen? Sind Sie sicher, dass Sie keine Dateneingabefehler haben?
Wayne

Hier gibt es so viele gute Antworten, dass ich mir nicht sicher bin, welche Antwort ich annehmen soll! Eine Anleitung hierzu wäre hilfreich
Amarald

Wählen Sie im Allgemeinen diejenige aus, die Ihrer Meinung nach Ihre Frage am direktesten und klarsten beantwortet. Wenn es zu schwer zu sagen ist, würde ich mich für diejenige mit den höchsten Stimmen entscheiden. Auch wenn es ein bisschen schmerzhaft ist, sich zu entscheiden, ist es wichtig, jemanden zu belohnen, der sich die Zeit genommen hat, um zu antworten.
Wayne

1
PS Könnten Sie bitte mit einem Vermerk klären, was Sie unter "diese Prozesse sind robust" verstehen? Es ist nicht kritisch für die Antworten, die sich auf Normalität usw. konzentrieren, aber ich denke, es hat einen gewissen Einfluss.
Wayne

3
Ausreißer sind nicht modellfrei. Ein ungewöhnlicher Ausreißer unter einem Modell kann ein ganz normaler Punkt unter einem anderen sein. Die erste Frage sollte lauten: "Warum versuchen Sie, Ausreißer zu erkennen?" (anstatt etwas anderes zu tun, wie robuste Methoden zu verwenden), und die zweite wäre "Was macht eine Beobachtung zu einem Ausreißer in Ihrer speziellen Anwendung?"
Glen_b

Antworten:


26

Einige Ausreißer sind eindeutig unmöglich . Sie erwähnen 48 kg für das Babygewicht. Dies ist eindeutig ein Fehler. Das ist kein statistisches Problem, es ist ein inhaltliches. Es gibt keine 48 kg menschlichen Babys. Jede statistische Methode identifiziert einen solchen Punkt.

Ich persönlich würde die Daten grafisch darstellen, anstatt mich auf einen Test zu verlassen (auch auf geeignete, wie von @Michael empfohlen). Das Anzeigen, dass ein bestimmter Datenwert (oder Werte) unter einer bestimmten hypothetischen Verteilung unwahrscheinlich ist, bedeutet nicht, dass der Wert falsch ist. Daher sollten Werte nicht automatisch gelöscht werden, nur weil sie extrem sind.

Darüber hinaus ist die von Ihnen vorgeschlagene Regel (2 SD vom Mittelwert) eine alte, die in den Tagen verwendet wurde, bevor Computer die Dinge einfacher machten. Wenn N 100.000 ist, dann erwarten Sie sicher einige Werte mehr als 2 SD vom Mittelwert, selbst wenn es eine perfekte Normalverteilung gibt.

Aber was ist, wenn die Verteilung falsch ist? Angenommen, die betreffende Variable ist in der Grundgesamtheit nicht normalverteilt, hat aber schwerere Schwänze?


1
Was ist der größte Wert des Babygewichts, den Sie für möglich halten?
mark999

2
Ich weiß es nicht. Aber man könnte die Akte nachschlagen. Laut answers.com (von einem schnellen Google) waren es 23,12 Pfund, zwei Eltern mit Riesenwahn geboren. Wenn ich recherchieren würde, würde ich weiter nachsehen.
Peter Flom - Wiedereinsetzung von Monica

Was ist, wenn man die Daten nicht visuell überprüfen kann (dh sie könnten Teil eines automatischen Prozesses sein?)
user90772

Fügen Sie der Automatisierung irgendwie Diagramme hinzu.
Peter Flom - Wiedereinsetzung von Monica

24

Ja. Es ist ein schlechter Weg, um Oultiere zu "erkennen". Bei normal verteilten Daten würde eine solche Methode 5% der perfekt guten (aber leicht extremen) Beobachtungen als "Ausreißer" bezeichnen. Auch wenn Sie eine Stichprobe der Größe n haben und nach extrem hohen oder niedrigen Beobachtungen suchen, um sie als Ausreißer zu bezeichnen, sehen Sie sich die Statistik der extremen Ordnungen genau an. Das Maximum und Minimum einer normalverteilten Probe ist nicht normalverteilt. Der Test sollte also auf der Verteilung der Extreme basieren. Das ist es, was Grubbs 'Test und Dixons Ratio-Test tun, wie ich bereits mehrfach erwähnt habe. Selbst wenn Sie einen geeigneten Test für Ausreißer verwenden, sollte eine Beobachtung nicht abgelehnt werden, nur weil sie ungewöhnlich extrem ist. Sie sollten untersuchen, warum die extreme Beobachtung zuerst auftrat.


1
Genauso "schlecht" wie die Zurückweisung von H0 aufgrund eines niedrigen p-Wertes.
Leo

16

Wenn Sie fragen, wie viele Standardabweichungen vom Mittelwert eines potenziellen Ausreißers vorliegen, vergessen Sie nicht, dass der Ausreißer selbst die SD erhöht und auch den Wert des Mittelwerts beeinflusst. Wenn Sie N-Werte haben, darf das Verhältnis des Abstands vom Mittelwert geteilt durch die SD (N-1) / sqrt (N) niemals überschreiten. Dies ist natürlich am wichtigsten bei winzigen Proben. Wenn beispielsweise N = 3 ist, kann kein Ausreißer möglicherweise mehr als 1,155 * SD vom Mittelwert entfernt sein, so dass es unmöglich ist, dass ein Wert jemals mehr als 2 SDs vom Mittelwert entfernt ist. (Dies setzt natürlich voraus, dass Sie die Beispiel-SD aus den vorliegenden Daten berechnen und keinen theoretischen Grund haben, die Populations-SD zu kennen.)

Die kritischen Werte für den Grubbs-Test wurden berechnet, um dies zu berücksichtigen, und hängen daher von der Probengröße ab.


12

Ich denke, Kontext ist alles. Für das gegebene Beispiel ist ein 48 kg schweres Baby eindeutig fehlerhaft, und die Verwendung von 2 Standardabweichungen würde diesen Fall auffangen. Es gibt jedoch keinen Grund zu der Annahme, dass die Verwendung von 2 Standardabweichungen (oder einem anderen Vielfachen von SD) für andere Daten geeignet ist. Wenn Sie beispielsweise Pestizidrückstände in Oberflächengewässern untersuchen, sind Daten über 2 Standardabweichungen ziemlich häufig. Diese besonders hohen Werte sind keine „Ausreißer“, auch wenn sie weit vom Mittelwert entfernt sind, da sie auf Regenereignisse, kürzliche Pestizidanwendungen usw. zurückzuführen sind. Natürlich können Sie auch andere „Faustregeln“ erstellen (warum nicht 1,5 × SD oder 3.1415927 × SD?), Aber ehrlich gesagt sind solche Regeln schwer zu verteidigen, und ihr Erfolg oder Misserfolg wird sich in Abhängigkeit von den Daten ändern, die Sie untersuchen. Ich denke, mit Urteil und Logik, trotz der Subjektivität, ist eine bessere Methode, um Ausreißer loszuwerden, als eine willkürliche Regel zu verwenden. In diesem Fall brauchten Sie keine 2 × SD, um den 48-kg-Ausreißer zu erkennen - Sie konnten es nachvollziehen. Ist das nicht eine überlegene Methode? Sind willkürliche Regeln für Fälle, in denen Sie es nicht herausfinden können, besser?

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.