Welche anderen normalisierenden Transformationen werden üblicherweise über die üblichen hinaus verwendet, wie Quadratwurzel, Log usw.?

10

Bei der Analyse von Testergebnissen (z. B. in der Pädagogik oder Psychologie) gehen gängige Analysetechniken häufig davon aus, dass die Daten normal verteilt sind. Vielleicht meistens jedoch weichen die Punktzahlen manchmal stark vom Normalwert ab.

Ich kenne einige grundlegende normalisierende Transformationen wie Quadratwurzeln, Logarithmen, reziproke Transformationen zum Reduzieren des positiven Versatzes, reflektierte Versionen des Obigen zum Reduzieren des negativen Versatzes, Quadrieren für leptokurtische Verteilungen. Ich habe von Arcsine-Transformationen und Power-Transformationen gehört, obwohl ich nicht wirklich über sie Bescheid weiß.

Ich bin also gespannt, welche anderen Transformationen von Analysten häufig verwendet werden.

data-transformation normality-assumption variance-stabilizing

— Mike Wong
quelle

5

Die Box-Cox- Transformation enthält viele der von Ihnen genannten. In dieser Antwort finden Sie einige Details:

Wie soll ich nicht negative Daten einschließlich Nullen transformieren?

UPDATE: Diese Folien bieten einen ziemlich guten Überblick über Box-Cox-Transformationen.

— ars
quelle

Wenn wir T-Tools auf transformierte Box-Cox-Daten anwenden, erhalten wir Rückschlüsse auf den Unterschied in den Mitteln der transformierten Daten. Wie können wir diese auf der ursprünglichen Messskala interpretieren? (Der Mittelwert der transformierten Werte ist nicht der transformierte Mittelwert). Mit anderen Worten (wenn ich richtig bin) ergibt die inverse Transformation der Schätzung des Mittelwerts auf der transformierten Skala keine Schätzung des Mittelwerts auf der ursprünglichen Skala.

— George Dontas

@ gd047, einige Tests gehen von einer Normalität der Verteilung des Mittelwerts aus, nicht der Daten. t-test ist in Bezug auf zugrunde liegende Daten in der Regel ziemlich robust. Sie haben jedoch Recht - bei Tests nach der Transformation werden die Ergebnisse nach der inversen Transformation gemeldet, und die Interpretation kann sehr problematisch sein. Es kommt darauf an, wie "ungewöhnlich" Ihre Daten sind. Können Sie davonkommen, ohne beispielsweise eine Protokolltransformation zu transformieren oder anzuwenden, die einfacher zu interpretieren ist? Ansonsten ist es kontextabhängig in Bezug auf die tatsächliche Transformation und Domäne, und ich habe keine wirklich gute Antwort. Könnte es sich lohnen zu fragen, was andere sagen?

— Ars

10

Der erste Schritt sollte darin bestehen, zu fragen, warum Ihre Variablen nicht normal verteilt sind. Dies kann aufleuchten. Gemeinsame Erkenntnisse aus meiner Erfahrung:

Fähigkeitstests (z. B. Prüfungen, Intelligenztests, Zulassungstests) sind bei Deckeneffekten tendenziell negativ und bei Bodeneffekten positiv verzerrt. Beide Ergebnisse legen nahe, dass der Schwierigkeitsgrad des Tests nicht für die Probe optimiert ist, da er entweder zu einfach oder zu schwierig ist, um die Fähigkeit optimal zu unterscheiden. Dies impliziert auch, dass die latente interessierende Variable noch normal verteilt sein könnte, die Struktur des Tests jedoch einen Versatz in der gemessenen Variablen induziert.
Fähigkeitstests haben häufig Ausreißer in Bezug auf niedrige Punktzahlen. Kurz gesagt, es gibt viele Möglichkeiten, einen Test schlecht zu machen. Dies kann insbesondere bei Prüfungen beobachtet werden, bei denen es einen kleinen Prozentsatz von Studenten gibt, bei denen eine Kombination aus mangelnder Eignung und mangelnder Anstrengung zu sehr niedrigen Testergebnissen geführt hat. Dies impliziert, dass die latente interessierende Variable wahrscheinlich einige Ausreißer aufweist.
In Bezug auf Selbstberichtstests (z. B. Persönlichkeits-, Einstellungstests usw.) tritt häufig ein Versatz auf, wenn die Stichprobe auf der Skala von Natur aus hoch ist (z. B. sind die Verteilungen der Lebenszufriedenheit negativ verzerrt, weil die meisten Menschen zufrieden sind) oder wenn die Skala verzerrt ist wurde für eine Probe optimiert, die sich von der unterscheidet, auf die der Test angewendet wird (z. B. Anwenden eines klinischen Depressionsmaßes auf eine nicht-klinische Probe).

Dieser erste Schritt kann Konstruktionsänderungen am Test vorschlagen. Wenn Sie sich dieser Probleme im Voraus bewusst sind, können Sie Ihren Test sogar so gestalten, dass sie vermieden werden, wenn Sie sie als problematisch ansehen.

Der zweite Schritt besteht darin, zu entscheiden, was in einer Situation zu tun ist, in der Sie nicht normale Daten haben. Notentransformationen sind nur eine mögliche Strategie. Ich möchte den allgemeinen Rat einer früheren Antwort in Bezug auf Nichtnormalität wiederholen :

Viele Verfahren, die die Normalität von Residuen voraussetzen , sind robust gegenüber geringfügigen Verstößen gegen die Normalität von Residuen
Bootstrapping ist im Allgemeinen eine gute Strategie
Transformationen sind eine weitere gute Strategie. Beachten Sie, dass aus meiner Erfahrung heraus die Arten von leichten Abweichungen, die üblicherweise bei psychologischen Tests mit Fähigkeiten und Selbstberichten auftreten, normalerweise ziemlich leicht in eine Verteilung umgewandelt werden können, die sich der Normalität annähert, indem ein Protokoll, ein Quadrat oder eine inverse Transformation (oder das umgekehrte Äquivalent) verwendet werden.

— Jeromy Anglim
quelle

9

John Tukey diskutiert in seinem Buch über EDA systematisch Transformationen. Zusätzlich zur Box-Cox-Familie (affin skalierte Leistungstransformationen) definiert er eine Familie von "gefalteten" Transformationen für Proportionen (im Wesentlichen Potenzen von x / (1-x)) und "gestartete" Zählungen (Hinzufügen eines positiven Versatzes zu gezählten Daten) bevor sie transformiert werden). Die gefalteten Transformationen, die das Logit im Wesentlichen verallgemeinern, sind besonders nützlich für Testergebnisse.

Ganz anders gesagt bieten Johnson & Kotz in ihren Büchern über Verteilungen viele Transformationen an, mit denen Teststatistiken in ungefähre Normalität (oder in eine andere Zielverteilung) umgewandelt werden sollen, beispielsweise die Kubikwurzel-Transformation für Chi-Quadrat. Dieses Material ist eine großartige Quelle für Ideen für nützliche Transformationen, wenn Sie davon ausgehen, dass Ihre Daten einer bestimmten Verteilung folgen.

— whuber
quelle

2

Eine einfache Option besteht darin, anstelle der Ergebnisse selbst Punktesummen zu verwenden. Die Summe der Verteilungen tendiert zur Normalität. In Bildung können Sie beispielsweise die Punktzahlen eines Schülers über eine Reihe von Tests hinzufügen.

Eine andere Möglichkeit besteht natürlich darin, Techniken zu verwenden, die keine Normalität voraussetzen und die unterschätzt und nicht ausreichend genutzt werden.

— Carlos Accioly
quelle

1

Ich glaube, dass die Summen normalisiert werden müssen (z. B. der Mittelwert), damit die Verteilung zur Normalität tendiert.

1

Ja, das ist richtig. In meinem Beispiel habe ich angenommen, dass die Klassen die gleiche Anzahl von Schülern haben würden, was nicht realistisch ist. Vielen Dank.

— Carlos Accioly

1

Für verzerrte und schwere Daten verwende (und entwickle) ich das Lambert W x F-Verteilungsframework. Schräge und schwerfällige Lambert W x F-Verteilungen basieren auf einer nichtlinearen Transformation einer Eingangszufallsvariablen (RV) zur Ausgabe von , die X ähnlich ist, jedoch verzerrt und / oder Heavy Tailed (siehe Papiere für detaillierte Formeln). $X \sim F$ $Y ~ Lambert W \times F$

Dies funktioniert im Allgemeinen für jedes kontinuierliche Wohnmobil, aber in der Praxis interessieren wir uns hauptsächlich für Gaußsches . Für schwerfällige Lambert W x F-Verteilungen ist die Umkehrung bijektiv und kann aus den Daten unter Verwendung Ihres bevorzugten Schätzers für den Parameter (MLE, Methoden der Momente, Bayesianische Analyse, ...). Wenn und X Gauß'sch sind, reduziert es sich auf Tukeys h-Verteilung. $X \sim N(\mu, \sigma^2)$ $\theta = (\mu_x, \sigma_x, \delta, \alpha)$ $\alpha \equiv 1$

Als Datentransformation wird dies nun interessant, da die Transformation bijektiv ist (fast bijektiv für einen verzerrten Fall) und explizit unter Verwendung der Lambertschen W- Funktion (daher der Name Lambert W x F) erhalten werden kann. Dies bedeutet, dass wir die Schiefe aus den Daten entfernen und auch schwere Schwänze entfernen können (bijektiv!).

Sie können es mit dem LambertW R-Paket ausprobieren. Das Handbuch enthält viele Beispiele für die Verwendung.

Für Anwendungen siehe diese Beiträge

Wie ist die Verteilung dieser Daten? : Hier finden Sie eine vollständige Darstellung der Umwandlung von Daten in Normalität in R mithilfe des LambertW- Pakets.
Auf der Suche nach einer Verteilung mit: Mittelwert = 0, Varianz ist variabel, Skew = 0 und Kurtosis ist variabel

— Georg M. Goerg
quelle