Müssen wir uns über Ausreißer Gedanken machen, wenn wir rangbasierte Tests verwenden?


8

Entschuldigung, wenn dies eine sehr grundlegende Frage ist.

Wenn wir Daten haben, die nicht normal verteilt sind (z. B. verzerrt, Shapiro-Wilk-Test ist signifikant) und wir auf rangbasierte Methoden zurückgreifen (z. B. Wilcoxon Signed Rank-Test), müssen wir uns dann mit Ausreißern befassen?

Stellen Sie sich zum Beispiel vor, wir zeichnen die Daten mithilfe eines Boxplots und eine Minderheit der Datenpunkte wird als Ausreißer markiert. Sollten wir diese Punkte transformieren? Oder entfernen Sie sie? Es scheint mir, dass viele Lehrbücher über den Umgang mit Ausreißern sprechen, aber nur, weil sie einen großen Einfluss auf die Parameter wie Mittelwert und Standardabweichung haben. Wenn wir jedoch einen rangbasierten Test verwenden, werden sie bereits zum nächsten Wert im Rang "transformiert" und würden daher keinen wesentlichen Einfluss auf den Test ausüben. Ich habe dies bisher nicht explizit in einem Statistikbuch gesehen, daher dachte ich, ich würde die Frage hier stellen.

Müssen wir uns über Ausreißer Gedanken machen, wenn wir rangbasierte Tests verwenden?


3
Statistisch rangbasierte Tests sind robust gegen Ausreißer. Ein Ausreißer ist jedoch ein Ausreißer. Auf operativer Ebene sollte der Analyst diesen Fall dennoch untersuchen. Ich würde also sagen, wir müssen uns immer noch "teilweise" um Ausreißer kümmern.
Penguin_Knight

Es ist in Ordnung, auch wenn die Frage sehr einfach sein könnte. Solange die Frage auf dieser Seite nicht gestellt wird, sind auch grundlegende Fragen gute Fragen
Hotaka

Antworten:


9

Nein. Wenn die Daten eingestuft werden, wird ein Ausreißer einfach als ein Fall erkannt, der über (oder unter) dem nächst weniger extremen Fall liegt. Unabhängig davon, ob zwischen dem größten und dem zweitgrößten Extremwert 0,01 oder 5 Standardabweichungen bestehen, wird dieser Grad an Differenz bei der Rangfolge der Daten weggeworfen.

Tatsächlich ist einer der vielen Gründe, warum jemand einen rangbasierten (oder nichtparametrischen) Test verwenden könnte, Ausreißer.


3
Und die hervorragende Effizienz nichtparametrischer und semiparametrischer Methoden ist ein Grund, die Normalität nicht vorab zu testen (abgesehen von der unzureichenden Leistung des Normalitätstests).
Frank Harrell

Ich bin mir nicht sicher, ob ich diese großartige, prägnante oder die zum Nachdenken anregende detaillierte Antwort von @NickCox akzeptieren soll. Ich werde ein paar Tage warten, um zu sehen, welche die meisten Stimmen erhalten!
Trev

9

@ Hotakas Antwort ist ganz richtig. Ranking macht Transformation unnötig; Es ist selbst eine Transformation, die exakte Werte ignoriert, sofern sie nicht zu Rangunterschieden führen. Tatsächlich zeigt ein kleiner Gedanke oder einige Beispielberechnungen, dass die Ergebnisse nach dem Ranking von Logarithmen oder Quadratwurzeln oder einer anderen monotonen Transformation genau die gleichen sind wie nach dem Ranking der Originaldaten.

Aber es kann noch mehr gesagt werden. Das Entweder-Oder-Denken

  • Entweder sind meine Daten normal verteilt und ich kann Standardverfahren oder klassische Verfahren anwenden.

  • Oder ich muss auf rangbasierte Tests zurückgreifen.

ist ein wenig krass und (wie man vermuten könnte) zu stark vereinfacht. Obwohl es schwierig ist, genau vorzuschlagen, was Sie tun sollten, ohne Ihre Daten und Ihre genauen Ziele zu sehen, gibt es andere Perspektiven:

  1. Viele Benutzer von Statistiken betrachten marginale (univariate) Verteilungen und beurteilen, ob sie der Normalität nahe kommen, aber das ist möglicherweise nicht einmal relevant. Beispielsweise ist für Verfahren vom Regressionstyp keine marginale Normalität erforderlich. Bei vielen Verfahren ist es wichtiger und näher an den Hauptannahmen, wie sich die Mittel verhalten, nicht wie sich die Daten verhalten.

  2. Sogar (sagen wir) ein signifikantes Ergebnis auf herkömmlichem Niveau für einen Shapiro-Wilk-Test ist zweideutig, um eine spätere Analyse zu leiten. Es heißt nur "Ihre Verteilung unterscheidet sich nachweislich von einer Normalverteilung". Das selbst bedeutet nicht, dass der Grad der Nicht-Normalität, den Sie haben, alles, was Sie im Sinn haben, ungültig oder absurd macht. Es kann nur bedeuten: Gehen Sie vorsichtig vor, da die zugrunde liegenden Annahmen nicht genau erfüllt sind. (In der Praxis sind sie in keiner Weise genau zufrieden.) Die Gewohnheit zu kultivieren ist die Annahme, dass alle P-Werte Näherungswerte sind. (Auch wenn keine Annahmen über Verteilungen getroffen werden, sind Annahmen über Stichproben oder Unabhängigkeit oder fehlerfreie Messung normalerweise implizit.)

  3. Obwohl viele Texte und Kurse etwas anderes implizieren, ist die nichtparametrische Statistik eine glorreiche Sackgasse: Es gibt ein Bündel von manchmal nützlichen Tests, aber in der Praxis geben Sie die meisten nützlichen Modelle auf, die für die moderne Statistik von zentraler Bedeutung sind.

  4. Ausreißer werden hier erwähnt und verdienen immer besondere Aufmerksamkeit. Sie sollten niemals weggelassen werden, nur weil sie unpraktisch sind oder der Grund zu sein scheinen, warum Annahmen nicht erfüllt sind. Manchmal ist eine Analyse in einem transformierten Maßstab der beste Weg. Manchmal sind einige milde Ausreißer nicht so problematisch, wie weniger erfahrene Statistiknutzer befürchten. Bei kleinen Stichproben sehen Daten häufig unregelmäßig oder klumpig aus, selbst wenn sich der Generierungsprozess recht gut verhält. Bei großen Stichproben muss ein einzelner Ausreißer den Rest der Daten nicht dominieren.

  5. Es besteht immer die Möglichkeit, beide Arten von Tests durchzuführen, z. B. Student's t und Mann-Whitney-Wilcoxon. Sie stellen nicht genau die gleiche Frage, aber es ist oft leicht zu erkennen, ob sie in die gleiche Richtung zeigen. Das heißt, wenn sowohl der Test als auch der andere Test klare Signale geben, dass zwei Gruppen unterschiedlich sind, haben Sie eine gewisse Sicherheit, dass Ihre Schlussfolgerung gut unterstützt wird (und eine gewisse Verteidigung gegen den Skeptiker, der dem einen oder anderen Verfahren misstraut, wenn ein Hauch von Nicht-Normalität herrscht ). Wenn die beiden Tests sehr unterschiedliche Antworten liefern, ist dies an sich ein nützlicher Beweis dafür, dass Sie sehr sorgfältig überlegen müssen, wie Daten am besten analysiert werden können. (Vielleicht bestimmt dieser massive Ausreißer wirklich, wie die Antwort herauskommt.)

P.<0,05


Vielen Dank für Ihre ausführliche Antwort. In Bezug auf die Wahl der Methode kann ich glauben, dass die meisten Benutzer von Statistiken beim ersten Blick auf ihre Daten ziemlich explorativ sind. Wenn sie jedoch einen Artikel schreiben, müssen sie begründen, welche Methode sie gewählt haben. Ich denke, dies hängt teilweise vom Fachgebiet ab und davon, ob wir mehr daran interessiert sind, viele Daten zu modellieren oder eine Hypothese zu testen. Für letztere muss ein Shapiro-Wilk, der jedoch unter Strom steht, besser aussehen, als die Schiefe ohne Test zu melden und anschließend einen nicht parametrischen Test durchzuführen.
Trev

1
Ich mag die Idee von (5) sehr, sowohl parametrische als auch nicht parametrische Tests durchzuführen. Aber ich habe selten einen Artikel gesehen (zumindest in der Psychologie), der besagt: "Hier sind die Ergebnisse verschiedener alternativer statistischer Tests." Sie wählen nur eine Methode und berichten, dass dies problematisch sein kann, da sie nur die Methode auswählen können, die ihnen ein signifikantes Ergebnis liefert, wie im psychowissenschaftlichen
trev

Natürlich wird die Alternative, mehrere Methoden zu melden, mit ziemlicher Sicherheit zu Unklarheiten führen, dh einige Methoden sind signifikant und andere nicht. Wie viele würden Sie brauchen, um zu dem Schluss zu kommen, dass Sie eine Wirkung haben? 4 von 5 signifikant? Was ist mit 3 von 5?
Trev

1
Ihre nachdenklichen Kommentare verdienen eine sehr ausführliche Diskussion. Meine Erfahrung bestätigt, dass Menschen in vielen Bereichen sehr besorgt sind, um zu zeigen, dass es eine einzige korrekte Analyse eines bestimmten Datensatzes gibt, was sie auch getan haben.
Nick Cox
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.