Was sind "Fringeliers"?


8

Ich habe kürzlich einen Rezensenten-Kommentar von einer Journal-Einreichung erhalten, in der ich darum gebeten wurde

berichten, wie ich mit Ausreißern und Randgruppen umgegangen bin .

Ich hatte noch nichts von dem Begriff "Fringeliers" gehört und als ich googelte, gab es einige Artikel, aber keine präzise Definition. Daher dachte ich, es wäre gut, eine Frage wie diese zu haben, die klarstellen könnte, was "Fringeliers" sind, und eine Definition sowohl für mich als auch für zukünftige Leute liefert, die dieselbe Frage stellen.


Hier ist eine vorgeschlagene Antwort, wenn Sie Ihre Überarbeitung einreichen: "Ich beschäftige mich mit Fringeliers, indem ich deren Kommentare zu meinem Manuskript berücksichtige und mein Papier entsprechend überarbeite." ;-)
Stephan Kolassa

Antworten:


10

Fringeliers scheinen als weniger extreme Ausreißer definiert zu sein. Dh Daten am Rande der Verteilung.

Wenn Sie beispielsweise einen Grenzwert für Ausreißer definieren, können Randwerte so operationalisiert werden, dass sie nahe an beiden Seiten des Grenzwerts liegen (z. B. bei einem Grenzwert von 3 SD zwischen 2,7 und 3,3 SD vom Mittelwert).

Osborne und Overbay (2008) schreiben Folgendes:

Obwohl die Definitionen variieren, wird ein Ausreißer im Allgemeinen als Datenpunkt angesehen, der weit außerhalb der Norm für eine Variable oder Population liegt (z. B. Jarrell, 1994; Rasmussen, 1988; Stevens, 1984). Hawkins (1980) beschrieb einen Ausreißer als eine Beobachtung, die „so sehr von anderen Beobachtungen abweicht, dass der Verdacht geweckt wird, dass sie durch einen anderen Mechanismus erzeugt wurde“ (S. 1). Ausreißer wurden auch als Werte definiert, die "in den Augen des Forschers zweifelhaft" (Dixon, 1950, S. 488) und als Kontaminanten (Wainer, 1976) sind.

Und führen Sie den Begriff "fringelier" von Wainer (1976) ein.

Wainer (1976) führte auch das Konzept des „Randes“ ein und bezog sich auf „ungewöhnliche Ereignisse, die häufiger als selten auftreten“ (S. 286). Diese Punkte liegen in der Nähe von drei Standardabweichungen vom Mittelwert und können daher einen unverhältnismäßig starken Einfluss auf Parameterschätzungen haben, sind jedoch aufgrund ihrer relativen Nähe zum Verteilungszentrum nicht so offensichtlich oder leicht zu identifizieren wie gewöhnliche Ausreißer.

Einige Beispiele:

In einigen Kontexten schlagen Ausreißer vor, dass die Daten ungültig sind. Wenn beispielsweise die Körpergröße eines Mannes als 8 Fuß groß angegeben wird (z. B. 6,5 SD über dem Mittelwert), ist dies wahrscheinlich eine ungültige Messung. Im Gegensatz dazu kann dies eine gültige Messung sein, wenn die Körpergröße einer Person als 6 Fuß 10 Zoll groß (3 SD über dem Mittelwert - ein Rand) angegeben wird. Dies kann jedoch auch auf ein Problem bei der Messung hinweisen, da dies ziemlich selten ist. Der Punkt ist, dass die Bestimmung, ob ein Wert ungültig ist, umso schwieriger wird, je weniger extrem der Wert wird.

In anderen Zusammenhängen sind Ausreißer ein Problem, da sie einen übermäßigen Einfluss auf Parameterschätzungen haben, insbesondere wenn statistische Standardmethoden mit kleinsten Quadraten usw. verwendet werden. Daher können Fringeliers größere Auswirkungen haben als einige der meisten Fälle, aber Entscheidungen darüber, ob die Daten für Modellierungszwecke aufbewahrt werden sollen oder nicht, sind möglicherweise weniger klar.

Verweise

  • Osborne, J. & amp; Overbay, A. (2008). Best Practices bei der Datenbereinigung: Wie Ausreißer und „Fringeliers“ die Fehlerrate erhöhen und die Qualität und Präzision Ihrer Ergebnisse verringern können. In Osborne, J. Best Practices in quantitativen Methoden (S. 205-213). Thousand Oaks, CA: SAGE Publications, Inc. doi: 10.4135 / 9781412995627
  • Wainer, H. Robust Statistik: Eine Umfrage und einige Rezepte1 (4) 285-312 (1976).

Ich nehme an, der Unterschied kann sich nur darin manifestieren, wie sie behandelt werden. Bemerken die Leute den Unterschied, der darauf hindeutet, den "Rand" mit einer weichen Strafe zu behandeln, während der Ausreißer mit einer harten Strafe behandelt wird, wie z. B. das völlige Verwerfen?
Hans

0

Ich würde denken, dass Sie die Häufigkeit der Randstreifen für die Datenpunkte berücksichtigen müssen, die sich unterhalb des Grenzwerts befinden. Wenn der Anteil von Fringeliers an "gültigen" Daten hoch ist (basierend auf einigen Faktoren), ist der Cutoff möglicherweise unrealistisch definiert. Stellen Sie sich vor, Sie sind in einem Zelt und die einzigen Bären in der Gegend sind 3 Meilen entfernt. aber es gibt 500 von ihnen! :) :)


Dies liefert keine Definition.
Michael R. Chernick
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.