Was sind die relativen Vorteile von Winsorizing vs. Trimming-Daten?


31

Winsorizing Daten Mittel ersetzen die Extremwerte eines Datensatzes mit einem bestimmten Perzentilwert von jedem Ende, während Trimm- oder Abschneiden beinhaltet das Entfernen dieser Extremwerte.

Ich sehe beide diskutierten Methoden immer als eine praktikable Option, um die Auswirkung von Ausreißern bei der Berechnung von Statistiken wie dem Mittelwert oder der Standardabweichung zu verringern, aber ich habe nicht gesehen, warum eine über die andere wählen könnte.

Gibt es relative Vor- oder Nachteile bei der Verwendung von Winsorizing oder Trimmen? Gibt es bestimmte Situationen, in denen eine Methode vorzuziehen wäre? Wird man in der Praxis häufiger verwendet oder sind sie grundsätzlich austauschbar?


2
Die Terminologie hier ist irreführend. Trimmen bedeutet, Extremwerte zu ignorieren, einige Brüche in jedem Schwanz. Das bedeutet nicht, dass Werte in den Endpunkten gelöscht oder gelöscht werden, nicht zuletzt, weil Sie sie möglicherweise und in der Regel auch in andere Analysen einbeziehen sollten. Der Begriff Kürzung ist am besten für andere Bedeutungen reserviert. Siehe zB en.wikipedia.org/wiki/Truncation_(statistics)
Nick Cox

Antworten:


11

In einer anderen, aber verwandten Frage zum Trimmen, über die ich gerade gestolpert bin, hatte eine Antwort die folgende hilfreiche Einsicht, warum man entweder Winsorizing oder Trimmen verwenden könnte:

Wenn Sie die zugeschnittene Distribution nehmen, geben Sie ausdrücklich an: Ich interessiere mich nicht für Ausreißer / die Schwänze der Distribution. Wenn Sie glauben, dass die "Ausreißer" wirklich Ausreißer sind (dh, sie gehören nicht zur Distribution, sondern sind von "anderer Art"), dann schneiden Sie zu. Wenn Sie der Meinung sind, dass sie zur Distribution gehören, Sie aber eine weniger verzerrte Distribution wünschen, könnten Sie über Winsorising nachdenken.

Ich bin gespannt, ob es einen definitiveren Ansatz gibt, aber die obige Logik klingt vernünftig.


4

Eine gute Frage, die in allen Bereichen sehr oft gestellt wird! In beiden Fällen entfernen Sie sie technisch aus dem Datensatz.

Ich weiß, dass es gängige Praxis ist, einen Trend grafisch zu finden, um eine Form der Kürzung zu verwenden: Verwenden Sie den gesamten Datensatz zum Zeichnen, schließen Sie dann die Extremwerte für die Interpretation aus.

Das Problem beim "Winsorizing" ist, dass die von Ihnen hinzugefügten Teile sich selbst erfüllen, das heißt, sie stammen aus dem Datensatz selbst und unterstützen ihn einfach. Es gibt ähnliche Probleme, wenn Sie sich die Validierungs- / Klassifizierungsarbeit beim maschinellen Lernen ansehen und entscheiden, wie Trainings- und Testdatensätze verwendet werden sollen.

Ich bin auf keinen Fall auf einen standardisierten Ansatz gestoßen - er ist immer datenspezifisch. Sie können versuchen herauszufinden, welches Perzentil Ihrer Daten (die Ausreißer) einen bestimmten Prozentsatz der Volatilität / st verursacht. Abweichung, und finden Sie ein Gleichgewicht zwischen der Verringerung dieser Volatilität, aber so viele Daten wie möglich zu behalten.


6
Wie in meinem obigen Kommentar ist "Entfernen aus dem Datensatz" hier zu stark. Trimmen oder Winsorizing bedeutet nur, was es für eine bestimmte Berechnung tut, ignoriert oder ersetzt. Sie sind nicht verpflichtet , die Endwerte aus dem Datensatz zu entfernen, als würden Sie faule Früchte wegwerfen. Wenn Sie beispielsweise mit möglichen Ausreißern konfrontiert werden, können Sie eine Analyse der kommenden Daten und eine Analyse auf der Grundlage des Zuschneidens durchführen und feststellen, welchen Unterschied diese machen.
Nick Cox

-1

Dies ist eine gute Frage, mit der ich konfrontiert wurde. In Fällen, in denen Sie einen großen oder genauer gesagt einen stark variierenden Datensatz haben, in denen die Minderheit der Datenwerte über einen weiten Bereich variiert (aber dennoch angezeigt werden muss) und der Großteil des Datensatzes in einem schmalen Band liegt, Wenn die Daten so gezeichnet werden, wie sie vorliegen, gehen die Details verloren, in denen der Großteil der Daten verloren geht, und die Normalisierung oder Standardisierung zeigt keine ausreichende Differenzierung (zumindest visuell), oder es sind stattdessen Rohdaten erforderlich, um die Daten zu kürzen oder zu gewinnen Extreme Datenwerte helfen bei der besseren Datenvisualisierung.


Das ist eine gute Frage, aber Sie beantworten sie nicht. Sie sagen nur, dass das Abschneiden oder Winsorizing die Visualisierung unterstützen kann.
Nick Cox

-2

O(nlogn)O(n)(1,2,3,4,4)(2+2+3+4+4)/5(2+3+4)/3(2+3+4+4)/4


1
O(nlogn)O(n)

Du hast Recht. Ich habe meinen ursprünglichen Beitrag falsch geschrieben. Manchmal sind die Tippfinger und das Gehirn nicht synchron. Ich wollte sagen, um einen wahren Mittelwert korrekt zu berechnen , müssen Sie alle Datenelemente sortieren. Ich glaube das ist immer noch wahr. Ich habe per Antwort aktualisiert.
Mark Lakata

2
Dies scheint zu implizieren, dass Winsorizing 25% in jedem Schwanz bedeutet. Sie können so viel oder so wenig Winsorize, wie angemessen erscheint.
Nick Cox
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.