Ist es in Ordnung, Ausreißer aus Daten zu entfernen?


33

Ich habe nach einer Möglichkeit gesucht, Ausreißer aus einem Datensatz zu entfernen, und diese Frage gefunden .

In einigen Kommentaren und Antworten auf diese Frage wurde jedoch darauf hingewiesen, dass es keine gute Praxis ist, Ausreißer aus den Daten zu entfernen.

In meinem Datensatz habe ich mehrere Ausreißer, die sehr wahrscheinlich nur auf Messfehler zurückzuführen sind. Selbst wenn dies bei einigen nicht der Fall ist, kann ich dies nicht von Fall zu Fall überprüfen, da zu viele Datenpunkte vorhanden sind. Ist es statistisch gültig, nur die Ausreißer zu entfernen? Oder, wenn nicht, was könnte eine andere Lösung sein?

Wenn ich diese Punkte einfach dort lasse, beeinflussen sie zB den Mittelwert in einer Weise, die die Realität nicht widerspiegelt (weil die meisten davon sowieso Fehler sind).

EDIT: Ich arbeite mit Hautleitwertdaten. Die meisten Extremwerte sind auf Artefakte zurückzuführen, z. B. wenn jemand an den Drähten zieht.

EDIT2: Mein Hauptinteresse an der Analyse der Daten besteht darin, festzustellen, ob zwischen zwei Gruppen ein Unterschied besteht


3
Und was willst du machen? Datenübersicht? Vorausschauende Analyse? Datenvisualisierung? Nachweisen, dass es zwischen zwei Gruppen (keinen) signifikanten Unterschied gibt? Wie bei allen Datenbereinigungen gibt es keine generelle Antwort.
Piotr Migdal


5
Ich bin ein Ingenieur, der mit vielen Statistiken arbeitet. Das war ein Haftungsausschluss und ein Geständnis, das bedeutet, dass ich Produkte liefern muss. Wir dürfen nur voll zugewiesene "schlechte" Punkte entfernen. Können Sie beweisen, dass es von jemandem war, der an einem Draht gezogen hat? Wenn Sie mehrere absichtliche Maßnahmen erhalten, können Sie dort binden und gruppieren. Dann können Sie die Daten im Cluster aufteilen (Pull vs. Non-Pull) und es geht nicht mehr um Ausreißer. Wenn Sie die Ursache nicht nachweisen können, müssen Sie sie behalten. Es spricht für Variation, und das ist ein großer Teil der Analyse. Sie können es nicht loswerden, wenn Sie es nicht mögen.
EngrStudent

4
Ich denke du fängst am falschen Ende an. Die erste Frage ist, wie Sie die Ausreißer überhaupt identifizieren können.
user603

5
Anstatt willkürlich identifizierte Ausreißer zu entfernen, ist es möglicherweise besser, etwas wie "Welche Methoden kann ich anwenden, wenn ich durch Probleme wie das Ziehen an Drähten verunreinigt bin, die von einer solchen Verunreinigung nicht stark betroffen sind?"
Glen_b -Reinstate Monica

Antworten:


26

Ich empfehle nicht, Ausreißer in der Hauptanalyse auszuschließen (es sei denn, Sie sind sich wirklich sicher, dass sie sich irren). Sie können dies jedoch in einer Sensitivitätsanalyse durchführen und die Ergebnisse der beiden Analysen vergleichen. In der Wissenschaft entdeckt man oft gerade dann neue Dinge, wenn man sich auf solche Ausreißer konzentriert.

Denken Sie zur weiteren Erläuterung an die bahnbrechende Entdeckung von Penicillin durch Fleming, die auf der versehentlichen Kontamination seiner Versuche mit einem Schimmelpilz beruht:

http://www.abpischools.org.uk/page/modules/infectiousdiseases_timeline/timeline6.cfm?coSiteNavigation_allTopic=1

In der nahen Vergangenheit oder Gegenwart wird die Erkennung von Ausreißern häufig als Leitfaden für Innovationen in den biomedizinischen Wissenschaften verwendet. Siehe zum Beispiel die folgenden Artikel (mit einigen geeigneten R-Codes):

http://www.la-press.com/a-comparison-of-methods-for-data-driven-cancer-outlier-discovery-and-a-article-a2599-abstract?article_id=2599

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678

Wenn Sie vernünftige Gründe haben, einige Daten auszuschließen, können Sie dies tun, vorzugsweise in einer Sensitivitätsanalyse und nicht in der primären. Sie können beispielsweise alle Werte ausschließen, die biologisch nicht plausibel sind (z. B. eine Temperatur von 48 Grad Celsius bei einem septischen Patienten). Ebenso können Sie alle ersten und letzten Messungen für einen bestimmten Patienten ausschließen, um Bewegungsartefakte zu minimieren. Beachten Sie jedoch, dass bei diesem Post-hoc-Vorgang (der nicht auf vordefinierten Kriterien basiert) das Risiko einer Datenmassage besteht.


5
Stimme zu, aber ich finde diese Antwort irgendwie kurz, um sie zu bewerten. Vielleicht könnten Sie ein gelungenes Beispiel liefern oder zeigen, warum und wie neue Dinge entdeckt werden können, wenn Sie sich auf Ausreißer konzentrieren? Dies mag auf den ersten Blick nicht so offensichtlich sein.
Tim

26

Eine Möglichkeit ist das Ausschließen von Ausreißern, aber IMHO sollten Sie dies nur tun, wenn Sie (mit fast Gewissheit) argumentieren können, warum solche Punkte ungültig sind (z. B. Messgeräte ausgefallen, Messmethode aus irgendeinem Grund unzuverlässig, ...). Beispielsweise wird bei Frequenzbereichsmessungen DC häufig verworfen, da viele verschiedene Begriffe zu DC beitragen, was nicht immer mit dem Phänomen zusammenhängt, das Sie beobachten möchten.

Das Problem beim Entfernen von Ausreißern ist, dass Sie ein gutes Modell der "guten Daten" haben müssen, um zu bestimmen, welche Punkte Ausreißer sind oder nicht. Wenn Sie sich bezüglich des Modells unsicher sind (welche Faktoren sollten einbezogen werden, welche Struktur das Modell hat, welche Annahmen das Rauschen hat, ...), können Sie sich bezüglich Ihrer Ausreißer nicht sicher sein. Diese Ausreißer sind möglicherweise nur Beispiele, die Ihnen mitteilen möchten, dass Ihr Modell falsch ist. Mit anderen Worten: Das Entfernen von Ausreißern stärkt Ihr (falsches!) Modell, anstatt Ihnen neue Erkenntnisse zu ermöglichen!

Eine andere Möglichkeit ist die Verwendung robuster Statistiken. ZB sind der Mittelwert und die Standardabweichung empfindlich gegenüber Ausreißern, andere Metriken für "Standort" und "Streuung" sind robuster. Verwenden Sie beispielsweise anstelle des Mittelwerts den Median. Verwenden Sie anstelle der Standardabweichung den Bereich zwischen den Quartilen. Anstelle der standardmäßigen Regression der kleinsten Quadrate können Sie auch eine robuste Regression verwenden. Alle diese robusten Methoden heben die Ausreißer auf die eine oder andere Weise hervor, aber sie entfernen die Ausreißerdaten normalerweise nicht vollständig (dh eine gute Sache).


5
Gute Antwort. Die meisten Menschen wissen nicht, dass nicht jede Technik für jeden Datentyp geeignet ist . Das Konzentrieren auf den Mittelwert für Daten, die mit Ausreißern gefahren werden, ist eine der unglücklichen Folgen. Je mehr Weckrufe sie erhalten, desto besser für alle.
Rumtscho

16

Dachte, ich würde eine warnende Geschichte über das Entfernen von Ausreißern hinzufügen:

Erinnern Sie sich an das Problem mit dem Loch in der polaren Ozonschicht? Es gab einen Satelliten, der speziell zur Messung der Ozonkonzentration über dem Pol in eine Umlaufbahn gebracht wurde. Einige Jahre lang berichteten die nachverarbeiteten Daten des Satelliten, dass das polare Ozon in normalen Mengen vorhanden war, obwohl andere Quellen eindeutig zeigten, dass das Ozon fehlte. Schließlich ging jemand zurück, um die Satellitensoftware zu überprüfen. Es stellte sich heraus , dass jemand den Code geschrieben hatte , zu überprüfen , ob die rohe Messung innerhalb eines erwarteten Bereichs um den typischen historischen Niveau war, und davon ausgehen , dass jede Messung außerhalb des Bereichs war nur ein Instrument ‚Spike‘ (dh ein Ausreißer), auto- Wert korrigieren . Zum Glück hatten sie auch die Rohmessungen aufgezeichnet; Als sie sie überprüften, stellten sie fest, dass das Loch die ganze Zeit gemeldet worden war.


12
Es wäre gut, einen Hinweis auf den Vorfall aufzunehmen : Warum hatten sie das Phänomen nicht früher entdeckt? Leider war die TOMS-Datenanalysesoftware so programmiert, dass Datenpunkte markiert und beiseite gelegt wurden, die stark von den erwarteten Messungen abweichen. Daher wurden die anfänglichen Messungen, die Alarme auslösen sollten, einfach übersehen. Kurz gesagt, das TOMS-Team konnte den Ozonabbau Jahre zuvor nicht feststellen, da er weitaus schwerwiegender war als von Wissenschaftlern erwartet.
Johnny

3
Das ist eine großartige Geschichte. und man viel wiederholt, aber für mich ist math.uni-augsburg.de/stochastik/pukelsheim/1990c.pdf überzeugend als ein auf einem Missverständnis beruhender Mythos zu bezeichnen. Beachten Sie im Übrigen, dass "die polare Ozonschicht" neu geschrieben werden muss, da es zwei Pole gibt.
Nick Cox

3
Siehe auch den maßgeblichen Bericht Christie. M. 2001. Die Ozonschicht Eine Perspektive der Wissenschaftsphilosophie. Cambridge: Cambridge UP
Nick Cox

7

"Ausreißer" ist ein praktischer Begriff für das Sammeln von Daten, die nicht zu Ihrem erwarteten Prozess passen, um sie aus der Analyse zu entfernen.

Ich würde vorschlagen, niemals (Einschränkung später) Ausreißer zu entfernen. Mein Hintergrund ist die statistische Prozesskontrolle, daher beschäftige ich mich oft mit großen Mengen automatisch generierter Zeitreihendaten, die abhängig von den Daten und der Verteilung mit einem Laufdiagramm / Moving Box Plot / usw. verarbeitet werden.

Die Sache mit Ausreißern ist, dass sie immer Informationen über Ihren "Prozess" liefern. Was Sie sich als einen Prozess vorstellen, sind oftmals viele Prozesse, und es ist weitaus komplexer, als Sie glauben.

Anhand des Beispiels in Ihrer Frage würde ich vorschlagen, dass es eine Reihe von "Prozessen" geben könnte. es wird Abweichungen geben wegen ...

  • Probenahme mit einem Leitwertgerät
  • Probenahme zwischen Leitfähigkeitsmessgeräten
  • als das Subjekt eine Sonde entfernte
  • als sich das Thema bewegte
  • Unterschiede innerhalb der Haut eines Probanden über seinen Körper oder zwischen verschiedenen Probentagen (Haar, Feuchtigkeit, Öl usw.)
  • Unterschiede zwischen den Themen
  • die Schulung der Person, die die Messungen und Schwankungen zwischen den Mitarbeitern vornimmt

Alle diese Prozesse führen zu zusätzlichen Abweichungen in den Daten und verschieben wahrscheinlich den Mittelwert und ändern die Form der Verteilung. Viele davon können Sie nicht in einzelne Prozesse aufteilen.

Gehen wir also zu der Idee über, Datenpunkte als "Ausreißer" zu entfernen ... Ich würde Datenpunkte nur entfernen, wenn ich sie definitiv einem bestimmten "Prozess" zuordnen kann, den ich nicht in meine Analyse einbeziehen möchte. Sie müssen dann sicherstellen, dass die Gründe für die Nichtaufnahme im Rahmen Ihrer Analyse erfasst werden, sodass dies offensichtlich ist. Nehmen Sie keine Zuschreibung an, das ist der Schlüssel, um zusätzliche Notizen durch Beobachtung während Ihrer Datenerfassung zu machen.

Ich würde Ihre Aussage anfechten, "weil die meisten davon ohnehin Fehler sind", da es sich nicht um Fehler handelt, sondern nur um einen Teil eines anderen Prozesses, den Sie in Ihren Messungen als unterschiedlich identifiziert haben.

In Ihrem Beispiel halte ich es für sinnvoll , Datenpunkte auszuschließen, die Sie einem separaten Prozess zuordnen können, den Sie nicht analysieren möchten.


6

Wenn Sie Ausreißer entfernen, müssen Sie in den meisten Situationen dokumentieren, dass Sie dies tun, und warum. Wenn dies für ein wissenschaftliches Dokument oder für regulatorische Zwecke vorgesehen ist, kann dies dazu führen, dass Ihre endgültigen Statistiken diskontiert und / oder abgelehnt werden.

Die bessere Lösung besteht darin, zu ermitteln, wann Sie vermuten, dass Sie schlechte Daten erhalten (z. B. wenn Menschen an Drähten ziehen), dann zu ermitteln, wann Menschen an Drähten ziehen, und die Daten aus diesem Grund zu ziehen. Dies wird wahrscheinlich auch dazu führen, dass einige "gute" Datenpunkte gelöscht werden, aber Sie haben jetzt einen "echten" Grund, diese Datenpunkte am Ende der Sammlung und nicht am Ende der Analyse zu kennzeichnen und zu diskontieren. Solange Sie dies sauber und transparent tun, ist es weitaus wahrscheinlicher, dass dies für Dritte akzeptabel ist. Wenn Sie Datenpunkte im Zusammenhang mit gezogenen Drähten entfernen und dennoch Ausreißer feststellen, ist die mögliche Schlussfolgerung, dass die gezogenen Drähte nicht das (einzige) Problem sind - das weitere Problem könnte an Ihrem Versuchsaufbau oder Ihrer Theorie liegen.

Eines der ersten Experimente, das meine Mutter hatte, als sie zur Universität zurückkehrte, um ihren BSc zu beenden, war eines, bei dem den Studenten eine „schlechte“ Theorie über die Funktionsweise eines Prozesses gegeben wurde und sie dann aufgefordert wurden, ein Experiment durchzuführen. Schüler, die die resultierenden "schlechten" Datenpunkte gelöscht oder geändert haben, haben die Zuweisung nicht bestanden. Diejenigen, die korrekt angegeben haben, dass ihre Daten nicht mit den in der (schlechten) Theorie vorhergesagten Ergebnissen übereinstimmen, haben bestanden. Die Aufgabe bestand darin, die Schüler zu lehren, ihre Daten nicht zu „reparieren“ (zu verfälschen), wenn dies nicht zu erwarten war.

Zusammenfassung: Wenn Sie fehlerhafte Daten generieren, korrigieren Sie Ihr Experiment und nicht die Daten.


5

Es ist sicher ein moralisches Dilemma. Auf der einen Seite, warum sollten Sie einige verdächtige Datenpunkte die Anpassung Ihres Modells an den Großteil der Daten ruinieren lassen? Andererseits ist das Löschen von Beobachtungen, die nicht mit dem Realitätskonzept Ihres Modells übereinstimmen, eine Art Zensur. Bis zu Egon könnten diese Ausreißer versuchen, Ihnen etwas über diese Realität zu erzählen.

In einer Präsentation des Statistikers Steve MacEachern definierte er Ausreißer als "[nicht repräsentativ für das untersuchte Phänomen]". Wenn Sie unter diesem Gesichtspunkt der Ansicht sind, dass diese verdächtigen Datenpunkte nicht repräsentativ für das zu untersuchende Hautleitfähigkeitsphänomen sind Vielleicht gehören sie nicht in die Analyse. Oder wenn sie bleiben dürfen, sollte eine Methode angewendet werden, die ihren Einfluss begrenzt. In derselben Präsentation gab MacEachern Beispiele für robuste Methoden, und ich erinnere mich, dass in diesen wenigen Beispielen die klassischen Methoden mit entfernten Ausreißern immer mit den robusten Analysen mit den noch einbezogenen Ausreißern übereinstimmten. Persönlich neige ich dazu, mit den klassischen Techniken zu arbeiten, mit denen ich mich am wohlsten fühle, und lebe mit der moralischen Unsicherheit der Löschung von Ausreißern.


8
In Box, Hunter & Hunter: "Statistik für Experimentatoren" heißt es, dass in der chemischen Industrie Ausreißer häufig zu neuen Patenten geführt haben . Wollen Sie Ihr neues Patent wegwerfen?
kjetil b halvorsen

2
Nein, ich möchte keine Patente verpassen. Aber ich möchte auch nicht zwölf Zyklen drehen, um mein Modell dazu zu bringen, dass "jemand an den Drähten zieht". Das ist mit ziemlicher Sicherheit nicht das untersuchte Phänomen. Ich mag die Idee, dass Ausreißer Gelegenheiten sind, und eine Sache, die für ein einfaches Löschen gesagt werden muss, ist, dass zumindest der Code diese Löschungen dokumentiert, während bei robusten Methoden die Ausreißer nur sozusagen mit den anderen Punkten koexistieren.
Ben Ogorek

2
Sie haben Recht, dass die besonderen Umstände berücksichtigt werden müssen. Was nicht getan werden sollte, ist einige kontextfreie "Regeln" für die Ablehnung von Ausreißern anzuwenden. Es gibt keine so guten Regeln.
kjetil b halvorsen

1
Mein Lieblingspunkt über die Kraft des Kontexts ist die Frage: "Sind Snickers-Riegel gesund?" Nun, wenn Sie drei Tage lang im Wald verloren waren und nur ein paar auf dem Boden gefunden haben, stellt sich heraus, dass sie doch ziemlich gesund sind. Ich habe das Gefühl, dass die populären Antworten uns sagen: "Iss niemals eine Snickers-Bar, es sei denn, du bist absolut sicher, dass du sterben wirst, wenn du es nicht tust."
Ben Ogorek

0

Wenn ich eine Zufallsstichprobe von 100 Personen durchführe und eine dieser Personen zufällig Bill Gates ist, dann ist Bill Gates, soweit ich das beurteilen kann, repräsentativ für 1/100 der Bevölkerung.

Ein gemittelter Mittelwert gibt an, dass der durchschnittliche Lotteriegewinn 0 US-Dollar beträgt.


Nichts Ungewöhnliches, ein abgeschnittener Mittelwert ist nicht für verzerrte Verteilungen geeignet.
Yves Daoust

-2

Natürlich sollten Sie die Ausreißer entfernen, da sie definitionsgemäß nicht der untersuchten Verteilung folgen und ein parasitäres Phänomen sind.

Die eigentliche Frage lautet: Wie kann ich die Ausreißer zuverlässig erkennen?


Was ist, wenn eine solche Verteilung Cauchy ist?
AdamO

@AdamO: Die eigentliche Frage bleibt natürlich.
Yves Daoust

Warum diese Ablehnung?
Yves Daoust

3
(-1) weil ich nicht der Meinung bin, dass dies ein angemessener Beitrag ist, der durch Theorie, Beispiel oder Praxis begründet ist. Was ist ein "parasitäres Phänomen", aber ein poetisches Verständnis von Daten? Im Umgang mit Blutdruck, Harnsoda und neurologischer Bildgebung sehe ich täglich "Ausreißer", die repräsentativ für die betrachtete Bevölkerung sind. Das Entfernen kann eine signifikante Ursache für Verzerrungen sein. Zu behaupten, dass es sich um ein "parasitäres Phänomen" handelt, ermöglicht auf suggestive und täuschende Weise eine riskante statistische Praxis.
AdamO

@adam: du befürwortest nur, die inliers zu behalten, womit ich völlig einverstanden bin.
Yves Daoust
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.