Ist eine Protokolltransformation eine gültige Technik zum Testen nicht normaler Daten?


19

Bei der Durchsicht einer Arbeit gaben die Autoren an, "Kontinuierliche Ergebnisvariablen mit einer verzerrten Verteilung wurden unter Verwendung der natürlichen Logarithmen transformiert, bevor t-Tests durchgeführt wurden, um die vorausgesetzten Normalitätsannahmen zu erfüllen."

Ist dies eine akzeptable Methode, um nicht normale Daten zu analysieren, insbesondere wenn die zugrunde liegende Verteilung nicht unbedingt lognormal ist?

Das mag eine sehr dumme Frage sein, aber ich habe das noch nie gesehen ...


3
Wenn die anfängliche Verteilung nicht logarithmisch normal ist, erfüllen die transformierten Daten nicht die vorausgesetzten Normalitätsannahmen. Was wird also durch die Transformation gewonnen?
Makro

@Macro - wahr genug! (+1) - sie wollten wahrscheinlich nur die Verteilungen näher an die Symmetrie bringen, was für t-testing keine schlechte Sache ist, aber wenn sie es nicht überprüft und aufgeschrieben haben, wissen wir nicht, ob das Protokoll vorhanden ist transform induzierte einen negativen
Versatz, der

2
Wir könnten daraus schließen, dass, weil dies getan wurde, um die Normalität zu befriedigen, und die Normalität an erster Stelle überprüft wurde, diese Normalität anschließend überprüft wurde. Es ist stark in der Sprache hier impliziert.
John

10
Ein t-Test für die Logarithmen ist weder dasselbe wie ein t-Test für die nicht transformierten Daten noch ein nichtparametrischer Test. Der t-Test auf den Protokollen vergleicht geometrische Mittelwerte, nicht die (üblichen) arithmetischen Mittelwerte. Dies ist eine von mehreren wichtigen Überlegungen bei der Entscheidung, ob die Verwendung der Logarithmen akzeptabel ist (was je nach Anwendung auch sein kann).
Whuber

Antworten:


9

Es ist üblich, eine Art von Transformation auf die Normalität anzuwenden (z. B. unter Verwendung von Logarithmen, Quadratwurzeln usw.), wenn Daten angetroffen werden, die nicht normal sind. Während der Logarithmus für verzerrte Daten relativ häufig gute Ergebnisse liefert, gibt es keine Garantie dafür, dass er in diesem speziellen Fall funktioniert. Beachten Sie bei der Analyse der transformierten Daten auch den obigen @ whubers-Kommentar: "Ein t-Test für die Logarithmen ist weder mit einem t-Test für die nicht transformierten Daten noch mit einem nichtparametrischen Test identisch. Der t-Test auf den Logs vergleicht geometrische Daten bedeutet, nicht das (übliche) arithmetische Mittel. "

n-1ich=1n(xich-x¯)3(n-1ich=1n(xich-x¯)2)3/2

Anstatt eine Transformation (z. B. Logarithmen) zu wählen, weil sie die meiste Zeit funktioniert, bevorzuge ich die Box-Cox-Prozedur, um eine Transformation anhand der angegebenen Daten auszuwählen. Es gibt jedoch einige philosophische Probleme damit; insbesondere, ob dies die Anzahl der Freiheitsgrade im t-Test beeinflussen soll, da wir bei der Auswahl der zu verwendenden Transformation einige Informationen aus der Stichprobe verwendet haben.

Eine gute Alternative zur Verwendung des t-Tests nach einer Transformation oder eines klassischen nichtparametrischen Tests ist schließlich die Verwendung des Bootstrap- Analogons des t-Tests. Es setzt keine Normalitätsannahme voraus und ist ein Test über die nicht transformierten Mittel (und über nichts anderes).


1
+1 Gute, durchdachte Diskussion mit einer guten Empfehlung am Ende. Weitere Informationen zur Bootstrap / Resampling / Permutation-Version des T-Tests finden Sie in einem aktuellen Thread unter stats.stackexchange.com/q/24911 .
Whuber

0

Wenn die für die Durchführung eines t-Tests erforderlichen Annahmen nicht erfüllt sind, ist es im Allgemeinen sinnvoller, einen nichtparametrischen Test zu verwenden.


5
Vielleicht. Nichtparametrische Tests vergleichen fast immer Mediane (oder andere Perzentile) , anstatt Mittel und daher wirklich eine etwas andere Frage beantworten. Dies scheint jedoch keine hilfreiche Antwort auf die aktuelle Frage zu sein, die speziell (und nur) nach dem Testen der Protokolle der Daten fragt.
Whuber
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.