Solange Ihre Daten aus einer bekannten Verteilung mit bekannten Eigenschaften stammen, können Sie einen Ausreißer rigoros als ein Ereignis definieren, das durch den beobachteten Prozess zu unwahrscheinlich generiert wurde (wenn Sie es für "zu unwahrscheinlich" halten, dass es nicht rigoros ist) Alle Hypothesentests sind).
Dieser Ansatz ist jedoch auf zwei Ebenen problematisch: Es wird davon ausgegangen, dass die Daten aus einer bekannten Verteilung mit bekannten Eigenschaften stammen, und es besteht das Risiko, dass Ausreißer als Datenpunkte betrachtet werden, die von einigen magischen Feen in Ihren Datensatz geschmuggelt wurden.
In Abwesenheit von magischen Datenfehlern stammen alle Daten aus Ihrem Experiment, und daher ist es eigentlich nicht möglich, Ausreißer zu haben, sondern nur seltsame Ergebnisse. Dies kann durch Aufzeichnungsfehler (z. B. ein Haus mit 400.000 Schlafzimmern für 4 Dollar), systematische Messprobleme (der Bildanalysealgorithmus meldet große Flächen, wenn sich das Objekt zu nahe an der Grenze befindet) und experimentelle Probleme (manchmal fallen Kristalle aus der Lösung aus) verursacht werden. die ein sehr hohes Signal geben) oder Merkmale Ihres Systems (eine Zelle kann sich manchmal in drei statt in zwei teilen), aber sie können auch das Ergebnis eines Mechanismus sein, den niemand jemals in Betracht gezogen hat, weil er selten ist und Sie forschen, was bedeutet, dass einige der Dinge, die Sie tun, einfach noch nicht bekannt sind.
Im Idealfall nehmen Sie sich die Zeit, um jeden Ausreißer zu untersuchen, und entfernen ihn erst aus Ihrem Datensatz, wenn Sie verstanden haben, warum er nicht zu Ihrem Modell passt. Dies ist zeitaufwändig und subjektiv, da die Gründe in hohem Maße vom Experiment abhängen. Die Alternative ist jedoch schlimmer: Wenn Sie nicht verstehen, woher die Ausreißer stammen, haben Sie die Wahl, Ihre Ergebnisse von Ausreißern "verfälschen" zu lassen. oder definieren Sie einen "mathematisch rigorosen" Ansatz, um Ihr Unverständnis zu verbergen. Mit anderen Worten, wenn Sie nach "mathematischer Strenge" streben, können Sie wählen, ob Sie keine signifikante Wirkung erzielen oder nicht in den Himmel gelangen möchten.
BEARBEITEN
Wenn Sie nur eine Liste von Zahlen haben, ohne zu wissen, woher sie kommen, können Sie nicht sagen, ob ein Datenpunkt ein Ausreißer ist, da Sie immer von einer Verteilung ausgehen können, bei der alle Daten Lieferanten sind.