Ausreißer durch Mittelwert ersetzen


31

Diese Frage wurde von meinem Freund gestellt, der nicht mit dem Internet vertraut ist. Ich habe keinen statistischen Hintergrund und habe im Internet nach dieser Frage gesucht.

Die Frage ist: Ist es möglich, Ausreißer durch Mittelwerte zu ersetzen? Wenn es möglich ist, gibt es Buchreferenzen / Zeitschriften, um diese Aussage zu sichern?


25
Dies ist sicherlich möglich , aber es ist schwer vorstellbar, dass dies sinnvoll ist.
Peter Flom - Wiedereinsetzung von Monica

2
Bereits mehrere längere Antworten, aber es ist unwahrscheinlich, dass die Zusammenfassung von @Peter Floms einem Satz als Zusammenfassung entspricht.
Nick Cox

4
Keine Antwort hat den Elefanten im Raum bisher darauf hingewiesen: Obwohl das Ersetzen von "Ausreißern" durch den Mittelwert den Durchschnitt eines Datensatzes bewahrt, ändert sich fast jede andere Statistik. Es werden sogar Schätzungen des Standardfehlers des Mittelwerts geändert. Dementsprechend scheint der resultierende Datensatz - zur Unterstützung des Kommentars von @Peter Flom - für keine verlässliche Form der Schlussfolgerung nützlich zu sein. (Es ist denkbar, dass es nicht für sich allein verwendet werden kann, sondern in Zwischenschritten in einem iterativen Verfahren, um Ausreißer zu identifizieren, wodurch erklärt wird, warum ein solches Verfahren überhaupt existieren könnte.)
whuber

1
@whuber Ganz klar ein wichtiger Punkt. Ich würde es zu einer anderen Antwort machen, damit es niemandem entgeht, der diesen Thread zu schnell liest. Menschen, die von diesem Gerät in Versuchung geführt werden und es gibt offenbar einige, müssen erkennen, dass es (a) keine gute Idee ist (b) eine schlechte Idee.
Nick Cox

1
@ user2357112 Dies impliziert, dass der zu verwendende Mittelwert der Mittelwert der anderen Werte ist. Der als nicht vertrauenswürdig geltende Ausreißerwert sollte nicht in die Berechnung einbezogen werden.
Nick Cox

Antworten:


41

Natürlich ist es möglich, aber es ist nicht klar, dass es jemals eine gute Idee sein könnte.

Lassen Sie uns einige Möglichkeiten beschreiben, wie dies eine begrenzte oder mangelhafte Lösung ist:

  • Tatsächlich sagen Sie, dass der Ausreißerwert absolut nicht vertrauenswürdig ist, sofern Sie nur davon ausgehen können, dass der Wert der Mittelwert sein sollte. Wenn Sie das glauben, ist es wahrscheinlich ehrlicher, wenn Sie die betreffende Beobachtung weglassen, da Sie offensichtlich nicht über genügend Informationen verfügen, um eine bessere Vermutung anzustellen.

  • Wenn nichts anderes gesagt ist, benötigen Sie zunächst ein Kriterium oder Kriterien zur Identifizierung von Ausreißern (wie von @Frank Harrell impliziert). Ansonsten ist dies ein willkürliches und subjektives Verfahren, auch wenn es urteilshalber verteidigt wird. Mit einigen Kriterien ist es möglich, dass das Entfernen von Ausreißern auf diese Weise noch mehr Ausreißer als Nebeneffekt erzeugt. Ein Beispiel könnte sein, dass Ausreißer mehr als so viele Standardabweichungen vom Mittelwert haben. Durch das Entfernen eines Ausreißers wird die Standardabweichung geändert, und neue Datenpunkte können jetzt qualifiziert werden.

  • Vermutlich bedeutet der Mittelwert hier den Mittelwert aller anderen Werte, ein Punkt, der von @David Marx explizit angegeben wurde. Ohne diese Vorgabe ist die Idee nicht eindeutig.

  • Die Verwendung des Mittelwerts mag als sicheres oder konservatives Verfahren erscheinen, aber die Änderung eines Werts in den Mittelwert ändert fast jede andere Statistik, einschließlich der von @whuber hervorgehobenen Maße für Füllstand, Skala und Form sowie der Indikatoren für ihre Unsicherheit.

  • Der Mittelwert ist möglicherweise nicht einmal ein realisierbarer Wert. Einfache Beispiele sind ganze Zahlen, aber der Mittelwert ist normalerweise keine ganze Zahl.

  • Auch wenn die Idee besteht, dass die Verwendung einer summarischen Kennzahl eine vorsichtige Maßnahme ist, muss die Verwendung des Mittelwerts anstelle des Medians oder einer anderen Kennzahl begründet werden.

  • Immer wenn es andere Variablen gibt, kann das Ändern des Werts einer Variablen ohne Bezugnahme auf andere einen Datenpunkt in anderer Hinsicht anomal machen.

Was mit Ausreißern zu tun ist, ist eine offene und sehr schwierige Frage. Unterschiedliche Lösungen und Strategien haben einen unterschiedlichen Reiz. Hier ist eine unvollständige Liste von Möglichkeiten. Die Bestellung ist willkürlich und soll keine Reihenfolge in Bezug auf Anwendbarkeit, Wichtigkeit oder ein anderes Kriterium vermitteln. Diese Ansätze schließen sich auch nicht gegenseitig aus.

  • Eine (meiner Meinung nach gute) Definition ist, dass "[o] Lieferanten Stichprobenwerte sind, die in Bezug auf den Großteil der Stichprobe Überraschungen hervorrufen" (WN Venables und BD Ripley. 2002). Moderne angewandte Statistik mit S. New York: Springer, S.119). Überraschung ist jedoch im Kopf des Betrachters und hängt von einem stillschweigenden oder expliziten Modell der Daten ab. Möglicherweise gibt es ein anderes Modell, bei dem der Ausreißer überhaupt nicht überrascht. Die Daten sind also eher lognormal oder gamma als normal. Kurz gesagt, seien Sie bereit, Ihr Modell (neu) zu überdenken.

  • Gehen Sie ins Labor oder auf das Feld und führen Sie die Messung erneut durch. Oft ist dies nicht praktikabel, aber es scheint in einigen Wissenschaften Standard zu sein.

  • Testen Sie, ob Ausreißer echt sind. Die meisten Tests sehen für mich ziemlich künstlich aus, aber vielleicht finden Sie einen, von dem Sie glauben, dass er zu Ihrer Situation passt. Irrationale Überzeugung, dass ein Test angemessen ist, ist immer erforderlich, um einen Test anzuwenden, der dann als wesentlich rational dargestellt wird.

  • Werfen Sie sie als eine Frage des Urteils aus.

  • Wirf sie mit einer mehr oder weniger automatisierten (normalerweise nicht "objektiven") Regel raus.

  • Ignorieren Sie sie ganz oder teilweise. Dies kann formal sein (z. B. Beschneiden) oder nur eine Frage des Verbleibs im Datensatz, aber das Auslassen dieser Informationen aus den Analysen als zu heiß für die Bearbeitung.

  • Ziehen Sie sie mit einer Art Einstellung ein, z. B. Winsorizing.

  • Spielen Sie sie mit einer anderen robusten Schätzmethode herunter.

  • Spielen Sie sie herunter, indem Sie auf einer transformierten Skala arbeiten.

  • Herunterspielen mit einer Nicht-Identitäts-Link-Funktion.

  • Bringen Sie sie unter, indem Sie eine geeignete Fett-, Long- oder Heavy-Tail-Verteilung ohne oder mit Prädiktoren anpassen.

  • Verwenden Sie einen Indikator oder eine Dummy-Variable als zusätzlichen Prädiktor in einem Modell.

  • Umgehen Sie das Problem, indem Sie eine nicht parametrische (z. B. rangbasierte) Prozedur verwenden.

  • Beherrschen Sie die implizite Unsicherheit mithilfe von Bootstrapping, Jackknifing oder permutationsbasiertem Verfahren.

  • Bearbeiten, um einen Ausreißer durch einen wahrscheinlicheren Wert zu ersetzen, basierend auf deterministischer Logik. "Eine 18-jährige Großmutter ist unwahrscheinlich, aber die betreffende Person wurde 1932 geboren, vermutlich sind es 81."

  • Bearbeiten, um einen unmöglichen oder unplausiblen Ausreißer durch eine Imputationsmethode zu ersetzen, die derzeit als nicht ganz weiße Magie akzeptiert wird.

  • Analysieren Sie mit und ohne und sehen Sie, wie viel Unterschied der Ausreißer statistisch, wissenschaftlich oder praktisch macht.

  • Etwas Bayesianisches. Meine vorherige Unkenntnis dessen, was es verbietet, Einzelheiten zu nennen.

BEARBEITEN Diese zweite Ausgabe profitiert von anderen Antworten und Kommentaren. Ich habe versucht, meine Inspirationsquellen zu kennzeichnen.


1
(+1) nette Antwort. Auf der bayesianischen Seite mag man viele Dinge tun, aber im Grunde versuchen Sie, ein Modell dafür zu erstellen, wie Sie zu solchen Werten gekommen sind (der Prozess, der zum Ausreißer geführt hat). Zum Beispiel kann es etwas Einfaches sein wie "Jeder Datenwert hat eine kleine, unbekannte Wahrscheinlichkeit, aus einer Verteilung zu stammen, die viel wilder ist als der Großteil der Daten" und dann eine vorherige Verteilung dieser Wahrscheinlichkeit vorzunehmen und eine Auswahl für diese Wilder zu formalisieren Verteilung und Prioritäten für seine Parameter. Der Effekt besteht darin, die Auswirkung von Punkten, die nicht zum Modell passen, zu verringern.
Glen_b -Reinstate Monica

16

Ihre Frage weist mehrere Probleme auf.

  1. Was ist ein "Ausreißer"?
  2. Sollte ein "Ausreißer" ersetzt werden?
  3. Was ist das Besondere am Mittelwert im Gegensatz zu einer anderen Schätzung?
  4. Wie würden Sie es kompensieren, die scheinbare Varianz beim Ersetzen durch einen einzelnen Wert zu erhöhen, der die Varianz zu klein macht?
  5. Warum nicht robuste Schätzer verwenden, die gegen Ausreißer resistent sind?
  6. Ist das eine unabhängige oder eine abhängige Variable?

Keiner von 1-5 hat eine offensichtliche Antwort. Wenn Sie wirklich das Gefühl haben, dass diese "Ausreißer" falsch sind und Sie keine robuste statistische Methode verwenden möchten, können Sie sie fehlen lassen und die Mehrfachzuschreibung als eine mögliche Lösung verwenden. Wenn die Variable eine abhängige Variable ist, ist eine robuste Wahl die ordinale Regression.


1
+1, gute Punkte. Der OLR-Vorschlag fasziniert mich. Gibt es einen Grund, warum Sie es vorziehen, eine robuste Verlustfunktion wie das Bisquadrat von Tukey zu verwenden?
gung - Wiedereinsetzung von Monica

2
YY

9

Der Vorschlag weist zahlreiche Mängel auf. Hier ist vielleicht der größte.

Angenommen, Sie erfassen Daten und sehen folgende Werte:

2,3,1

Der Mittelwert ist bisher .6/3=2

Dann kommt ein Ausreißer:

2,3,1,1000

Also ersetzen Sie es mit dem Mittelwert:

2,3,1,2

Die nächste Nummer ist gut:

2,3,1,2,7

Jetzt ist der Mittelwert 3. Moment mal, der Mittelwert ist jetzt 3, aber wir haben 1000 durch einen Mittelwert von 2 ersetzt, nur weil er als vierter Wert vorkam. Was ist, wenn wir die Reihenfolge der Proben ändern?

2,3,1,7,1000

(2+3+1+7)/4=13/4

Das Problem ist, dass das falsche Datum, das wir anstelle von 1000 ersetzen, von den anderen Daten abhängt . Das ist ein erkenntnistheoretisches Problem, wenn die Proben unabhängige Messungen darstellen sollen.

nnnnn

Grundsätzlich ist das Wegschneiden von Ergebnissen, die nicht passen, eine Sache (und kann gerechtfertigt werden, wenn dies konsequent nach einem Algorithmus und nicht nach sich ändernden Stimmungsschwankungen des Experimentators erfolgt).

Die völlige Verfälschung von Ergebnissen ist aus philosophischen, erkenntnistheoretischen und ethischen Gründen zu beanstanden.

Es kann einige mildernde Umstände geben, die damit zu tun haben, wie die Ergebnisse verwendet werden. Nehmen wir zum Beispiel an, dass diese Substitution von Ausreißern durch den aktuellen Mittelwert Teil des Algorithmus eines eingebetteten Computers ist, der die Implementierung eines Regelungssystems ermöglicht. (Es werden einige Systemausgaben abgetastet und dann Eingaben angepasst, um eine Steuerung zu erreichen.) Alles ist in Echtzeit, und daher muss für einen bestimmten Zeitraum anstelle fehlender Daten etwas bereitgestellt werden. Wenn dieses Fudging dabei hilft, Störungen zu überwinden und einen reibungslosen Betrieb zu gewährleisten, ist alles in Ordnung.

Hier ist ein weiteres Beispiel aus der digitalen Telefonie: PLC (Packet Loss Concealment). Mist passiert und Pakete gehen verloren, aber die Kommunikation erfolgt in Echtzeit. Die SPS synthetisiert gefälschte Stimmen auf der Grundlage der aktuellen Tonhöheninformationen aus korrekt empfangenen Paketen. Wenn also ein Sprecher den Vokal "aaa" sagte und dann ein Paket verloren ging, kann die SPS das fehlende Paket auffüllen, indem sie das "aaa" für die Rahmendauer extrapoliert (sagen wir 5 oder 10 Millisekunden oder was auch immer). Das "aaa" ist so, dass es der Stimme des Sprechers ähnelt. Dies ist analog zur Verwendung eines "Mittelwerts" als Ersatz für Werte, die als schlecht angesehen werden. Es ist eine gute Sache; Es ist besser als das Ein- und Ausschneiden des Tons und trägt zur Verständlichkeit bei.

Wenn das Fudging von Daten Teil eines Programms ist, Menschen anzulügen, um Fehlleistungen zu vertuschen, dann ist das etwas anderes.

Wir können also nicht unabhängig von der Anwendung darüber nachdenken: Wie werden die Statistiken verwendet? Werden Substitutionen zu ungültigen Schlussfolgerungen führen? Gibt es ethische Implikationen?


Die Geschichte der Telefonie ist sehr interessant, aber es scheint eine Frage der vertretbaren Interpolation zu sein, um fehlende Werte zu ersetzen. Die Verbindung mit dem Ersetzen von Ausreißern ist schwierig, da nur rein lokale Operationen erforderlich sind und lokale Änderungen der "Analyse" des gesamten Datensatzes untergeordnet sind.
Nick Cox

2
Viele interessante Ideen hier (+1). Beachten Sie jedoch, dass die Ersetzungsprozedur nicht unbedingt sequentiell ist. Man kann alle "Ausreißer" auf einmal identifizieren und alle durch den Mittelwert des Restes ersetzen. Dies ist ein konsistentes Verfahren, das Winsorizing nicht unähnlich ist.
Whuber

6

Dieser Artikel von Cousineau und Chartier beschreibt das Ersetzen von Ausreißern durch den Mittelwert

http://www.redalyc.org/pdf/2990/299023509004.pdf

Sie schreiben:

Tabachnick und Fidell (2007) schlugen vor, die fehlenden Daten durch den Mittelwert der verbleibenden Daten in der entsprechenden Zelle zu ersetzen. Dieses Verfahren wird jedoch dazu neigen, die Ausbreitung der Population zu verringern, die beobachtete Verteilung leptokurtischer zu machen und möglicherweise die Wahrscheinlichkeit eines Typ-I-Fehlers zu erhöhen. Eine aufwändigere Technik, multiple Imputationen, beinhaltet das Ersetzen von Ausreißern (oder fehlenden Daten) durch mögliche Werte (Elliott & Stettler, 2007; Serfling & Dang, 2009).

Es gibt auch ein R-Paket "Ausreißer", das die Funktion hat, Ausreißer durch den Mittelwert zu ersetzen. Ich habe auch eine Reihe von Treffern in meiner Google-Suche gesehen, die implizieren, dass SPSS auch eine solche Funktion hat, aber ich bin mit diesem Programm nicht vertraut. Wenn Sie den Themen folgen, können Sie vielleicht die technischen Grundlagen für die Praxis herausfinden.

Verweise

  • Cousineau, D. & Chartier, S. (2010). Erkennung und Behandlung von Ausreißern: eine Überprüfung. International Journal of Psychological Research, 3 (1), 58-67.

Ich habe Ihre Referenz nach allen Vorkommen des Wortes "mean" durchsucht und konnte keinen Ort finden, an dem es darum geht , Ausreißer durch den mean zu ersetzen . Wenn ich etwas verpasst habe, können Sie genauer angeben, wo diese Diskussion stattfindet?
whuber

1
Ich habe den Link geändert, weil ich ihn nicht zum Laufen bringen konnte. Auf Seite 9 des Dokuments heißt es: "Ausreißer, die eindeutig das Ergebnis einer falschen Aktivität sind, sollten entfernt werden. In multivariaten Designs kann dies jedoch dazu führen, dass zu viele Teilnehmer entfernt werden, sodass die Analyse nicht mehr durchgeführt werden kann Tabachnick und Fidell (2007) schlugen vor, die fehlenden Daten durch den Mittelwert der verbleibenden Daten in der entsprechenden Zelle zu ersetzen. "
Thomas

2
Danke: Ich sehe es jetzt. Es kann jedoch etwas irreführend sein, dies als "Diskussion" zu bezeichnen - was darauf hindeutet, dass ein gewisses Gleichgewicht zwischen Vor- und Nachteilen bestehen könnte -, da in dieser Passage das Mittelwertsubstitutionsverfahren (a) nur für multivariate Anwendungen und (b) ausschließlich erwähnt wird auf seine Mängel hinzuweisen und stattdessen eine Mehrfachzuschreibung vorzuschlagen. (Interessanterweise erscheint die Referenz des Papiers für dieses Verfahren nicht einmal in seiner Bibliographie.)
whuber

5
Ja, es ist merkwürdig, dass der zitierte Verweis nicht in der Startnummer steht. Es scheint das Buch "Experimental Designs Using ANOVA" zu sein. Ich habe versucht, auf die ursprüngliche Anfrage zu antworten und Referenzen für die Praxis des Ersetzens des Mittelwerts für Ausreißer bereitzustellen. Dieses Papier war alles, was ich bei einer schnellen Suche finden konnte, und ich hoffte, es könnte Hinweise liefern, damit das OP eine vollständigere Antwort finden konnte.
Thomas

4

Beim Umgang mit Ausreißern ist vor allem zu beachten, ob sie nützliche Informationen liefern. Wenn Sie erwarten, dass sie regelmäßig auftreten, können Sie durch Entfernen der Daten sicherstellen, dass Ihr Modell sie niemals vorhersagt. Natürlich hängt es davon ab, was das Modell tun soll, aber es ist zu beachten, dass Sie es nicht unbedingt fallen lassen sollten. Wenn sie wichtige Informationen enthalten, sollten Sie ein Modell in Betracht ziehen, das sie berücksichtigen kann. Eine einfache Möglichkeit besteht darin, Protokolle der Variablen zu erstellen, die die Potenzgesetz-Beziehungen berücksichtigen können. Alternativ können Sie ein Modell verwenden, das sie mit einer detaillierten Fehlerverteilung berücksichtigt.

Wenn Sie sie ausschneiden möchten, besteht die übliche Möglichkeit darin, sie entweder fallen zu lassen oder sie mit Winsorise zu versehen, um die Extremwerte zu entfernen. Ich habe kein Lehrbuch zur Hand, aber die Wiki-Links verweisen auf einige, wenn Sie weiterlesen möchten. Die meisten Texte zu angewandten Statistiken sollten einen Abschnitt zu Ausreißern enthalten.


3

Mir sind zwei ähnliche Ansätze in der Statistik bekannt.

  • 1
  • Winsorization: Ähnlich wie beim getrimmten Mittelwert ändern Sie nur extreme Beobachtungen. Anstatt sie jedoch fallen zu lassen, ersetzen Sie sie durch die größte / kleinste nicht-extreme Beobachtung. Dies funktioniert oft etwas besser als das Zuschneiden.

Ausführlichere Beispiele finden Sie in Wikipedia:

https://en.wikipedia.org/wiki/Trimmed_estimator

https://en.wikipedia.org/wiki/Winsorising

Beachten Sie, dass dies bei einigen Statistiken gut funktioniert, beispielsweise bei der Berechnung des Mittelwerts. Das getrimmte / wonorisierte Mittel ist oft eine bessere Schätzung des wahren Mittels als das artihmetische Mittel. In anderen Fällen kann dies Ihre Statistiken ruinieren. Wenn Sie beispielsweise die Varianz berechnen, unterschätzen Sie beim Trimmen immer Ihre wahre Varianz. Winsorization, vorausgesetzt, dass tatsächlich einige der extremen Beobachtungen fehlerhaft sind, wird dann ein bisschen besser funktionieren (es wird wahrscheinlich immer noch unterschätzt, aber nicht so viel).

Ich sehe nicht, wie das Ersetzen der Extremwerte durch den Mittelwert hier passen würde.

Es gibt jedoch eine andere verwandte Praxis: Fehlende Wertzuschreibung . Angenommen, Ihr Ausreißer ist fehlerhaft, wertlose Daten, so entfernen Sie es. Wenn Sie dann eine Imputation durchführen, ist ein typischer Ersatzwert der Mittelwert oder Modus:

https://en.wikipedia.org/wiki/Imputation_%28statistics%29


1
Asymmetrisches Trimmen ist eine bekannte und vertretbare Taktik.
Nick Cox

2

Der traditionelle Ansatz für die Behandlung von Ausreißern besteht darin, sie einfach so zu entfernen, dass Ihr Modell nur auf "guten" Daten trainiert wird.

Beachten Sie, dass der Mittelwert durch das Vorhandensein dieser Ausreißer beeinflusst wird. Wenn Sie Ausreißer durch den Mittelwert ersetzen, der berechnet wurde, nachdem die Ausreißer aus Ihrem Datensatz entfernt wurden , spielt dies keine Rolle , da die Regressionslinie (von der einfachen linearen Regression) ohnehin den Mittelwert Ihrer Trainingsdaten durchläuft (dies verringert die Varianz Ihrer Daten) Schätzungen, was wahrscheinlich das Gegenteil von dem ist, was Sie wollen, vorausgesetzt, Sie wissen, dass es Ausreißer gibt).

Wie sich Ihr Ansatz auf das Modell auswirkt, hängt vom Einfluss (Hebel) des Ausreißers ab. Ich würde gegen den Ansatz empfehlen, den Sie vorschlagen, anstatt nur den Punkt vollständig zu entfernen.


4
Das Entfernen von Daten führt zu einer Verzerrung, sofern das Verfahren zum Entfernen nicht objektiv ist und dasselbe Verfahren auf alle zukünftigen Daten angewendet wird, für die Vorhersagen vorliegen.
Frank Harrell

0

Ja, die Ausreißer können in Mai-Formen ersetzt werden. Nehmen wir zum Beispiel einen Datensatz mit der Größe der menschlichen Höhe. Nehmen wir an, wir haben einige Ausreißer wie 500 cm und 400 cm. Dann können wir nur die Datenpunkte ersetzen, die in angezeigt werden der Datensatz aufgrund eines Fehlers, der während der Aufzeichnung der Daten verursacht wurde. Die Optionen, die Sie ausprobieren können, sind also: 1. Ersetzen Sie sie durch den Median der gesamten Farbe der Daten (nicht durch den Mittelwert, da er für Ausreißer anfällig ist). 2. Ersetzen Sie durch den am häufigsten vorkommenden Datenpunkt in der Spalte. 3. Wenn es sich um kategoriale Werte handelt, können Sie es mit der Antwortcodierung versuchen (wobei Sie die Wahrscheinlichkeit des Wortes oder die durch die Gesamtzahl der Wörter auftretenden Werte aufzeichnen).

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.