"Ausreißer" ist ein praktischer Begriff für das Sammeln von Daten, die nicht zu Ihrem erwarteten Prozess passen, um sie aus der Analyse zu entfernen.
Ich würde vorschlagen, niemals (Einschränkung später) Ausreißer zu entfernen. Mein Hintergrund ist die statistische Prozesskontrolle, daher beschäftige ich mich oft mit großen Mengen automatisch generierter Zeitreihendaten, die abhängig von den Daten und der Verteilung mit einem Laufdiagramm / Moving Box Plot / usw. verarbeitet werden.
Die Sache mit Ausreißern ist, dass sie immer Informationen über Ihren "Prozess" liefern. Was Sie sich als einen Prozess vorstellen, sind oftmals viele Prozesse, und es ist weitaus komplexer, als Sie glauben.
Anhand des Beispiels in Ihrer Frage würde ich vorschlagen, dass es eine Reihe von "Prozessen" geben könnte. es wird Abweichungen geben wegen ...
- Probenahme mit einem Leitwertgerät
- Probenahme zwischen Leitfähigkeitsmessgeräten
- als das Subjekt eine Sonde entfernte
- als sich das Thema bewegte
- Unterschiede innerhalb der Haut eines Probanden über seinen Körper oder zwischen verschiedenen Probentagen (Haar, Feuchtigkeit, Öl usw.)
- Unterschiede zwischen den Themen
- die Schulung der Person, die die Messungen und Schwankungen zwischen den Mitarbeitern vornimmt
Alle diese Prozesse führen zu zusätzlichen Abweichungen in den Daten und verschieben wahrscheinlich den Mittelwert und ändern die Form der Verteilung. Viele davon können Sie nicht in einzelne Prozesse aufteilen.
Gehen wir also zu der Idee über, Datenpunkte als "Ausreißer" zu entfernen ... Ich würde Datenpunkte nur entfernen, wenn ich sie definitiv einem bestimmten "Prozess" zuordnen kann, den ich nicht in meine Analyse einbeziehen möchte. Sie müssen dann sicherstellen, dass die Gründe für die Nichtaufnahme im Rahmen Ihrer Analyse erfasst werden, sodass dies offensichtlich ist. Nehmen Sie keine Zuschreibung an, das ist der Schlüssel, um zusätzliche Notizen durch Beobachtung während Ihrer Datenerfassung zu machen.
Ich würde Ihre Aussage anfechten, "weil die meisten davon ohnehin Fehler sind", da es sich nicht um Fehler handelt, sondern nur um einen Teil eines anderen Prozesses, den Sie in Ihren Messungen als unterschiedlich identifiziert haben.
In Ihrem Beispiel halte ich es für sinnvoll , Datenpunkte auszuschließen, die Sie einem separaten Prozess zuordnen können, den Sie nicht analysieren möchten.