Fringeliers scheinen als weniger extreme Ausreißer definiert zu sein. Dh Daten am Rande der Verteilung.
Wenn Sie beispielsweise einen Grenzwert für Ausreißer definieren, können Randwerte so operationalisiert werden, dass sie nahe an beiden Seiten des Grenzwerts liegen (z. B. bei einem Grenzwert von 3 SD zwischen 2,7 und 3,3 SD vom Mittelwert).
Osborne und Overbay (2008) schreiben Folgendes:
Obwohl die Definitionen variieren, wird ein Ausreißer im Allgemeinen als Datenpunkt angesehen, der weit außerhalb der Norm für eine Variable oder Population liegt (z. B. Jarrell, 1994; Rasmussen, 1988; Stevens, 1984). Hawkins (1980) beschrieb einen Ausreißer als eine Beobachtung, die „so sehr von anderen Beobachtungen abweicht, dass der Verdacht geweckt wird, dass sie durch einen anderen Mechanismus erzeugt wurde“ (S. 1). Ausreißer wurden auch als Werte definiert, die "in den Augen des Forschers zweifelhaft" (Dixon, 1950, S. 488) und als Kontaminanten (Wainer, 1976) sind.
Und führen Sie den Begriff "fringelier" von Wainer (1976) ein.
Wainer (1976) führte auch das Konzept des „Randes“ ein und bezog sich auf „ungewöhnliche Ereignisse, die häufiger als selten auftreten“ (S. 286). Diese Punkte liegen in der Nähe von drei Standardabweichungen vom Mittelwert und können daher einen unverhältnismäßig starken Einfluss auf Parameterschätzungen haben, sind jedoch aufgrund ihrer relativen Nähe zum Verteilungszentrum nicht so offensichtlich oder leicht zu identifizieren wie gewöhnliche Ausreißer.
Einige Beispiele:
In einigen Kontexten schlagen Ausreißer vor, dass die Daten ungültig sind. Wenn beispielsweise die Körpergröße eines Mannes als 8 Fuß groß angegeben wird (z. B. 6,5 SD über dem Mittelwert), ist dies wahrscheinlich eine ungültige Messung. Im Gegensatz dazu kann dies eine gültige Messung sein, wenn die Körpergröße einer Person als 6 Fuß 10 Zoll groß (3 SD über dem Mittelwert - ein Rand) angegeben wird. Dies kann jedoch auch auf ein Problem bei der Messung hinweisen, da dies ziemlich selten ist. Der Punkt ist, dass die Bestimmung, ob ein Wert ungültig ist, umso schwieriger wird, je weniger extrem der Wert wird.
In anderen Zusammenhängen sind Ausreißer ein Problem, da sie einen übermäßigen Einfluss auf Parameterschätzungen haben, insbesondere wenn statistische Standardmethoden mit kleinsten Quadraten usw. verwendet werden. Daher können Fringeliers größere Auswirkungen haben als einige der meisten Fälle, aber Entscheidungen darüber, ob die Daten für Modellierungszwecke aufbewahrt werden sollen oder nicht, sind möglicherweise weniger klar.
Verweise
- Osborne, J. & amp; Overbay, A. (2008). Best Practices bei der Datenbereinigung: Wie Ausreißer und „Fringeliers“ die Fehlerrate erhöhen und die Qualität und Präzision Ihrer Ergebnisse verringern können. In Osborne, J. Best Practices in quantitativen Methoden (S. 205-213). Thousand Oaks, CA: SAGE Publications, Inc. doi: 10.4135 / 9781412995627
- Wainer, H. Robust Statistik: Eine Umfrage und einige Rezepte1 (4) 285-312 (1976).