Kann ich einen Z-Score mit verzerrten und nicht normalen Daten verwenden? [geschlossen]

12

Geschlossen . Diese Frage erfordert Details oder Klarheit . Derzeit werden keine Antworten akzeptiert.

Möchten Sie diese Frage verbessern? Fügen Sie Details hinzu und klären Sie das Problem, indem Sie diesen Beitrag bearbeiten .

Geschlossen vor 5 Jahren .

Ich habe mit einigen Prozesszykluszeitdaten und der Skalierung unter Verwendung des Standard-Z-Scores gearbeitet, um Teile der gesamten Zykluszeit zu vergleichen.

Sollte ich eine andere Transformation verwenden, da die Daten stark nach rechts verzerrt / nicht normal sind? (Ausreißer können niemals negative Zeit in Anspruch nehmen und dauern oft viel länger als der Durchschnitt.)

Die Verwendung des Z-Scores scheint immer noch zu "funktionieren" ...

###############
# R code    
###############
mydata <- rweibull(1000,1,1.5)
hist(mydata)
hist(scale(mydata))

normality-assumption standardization weibull

— TMOD
quelle

5

z

$z$

z

$z$

5

Wenn X stark verzerrt ist, wird die Z-Statistik nicht normal verteilt (oder t, wenn die Standardabweichung geschätzt werden muss. Die Perzentile von Z sind also nicht normal. In diesem Sinne funktioniert sie nicht.

— Michael R. Chernick
quelle

Meines Erachtens bedeutet X, dass die Stichprobengröße nicht groß genug war (zentraler Grenzwertsatz). Ich bin mir jedoch nicht sicher, ob die Population selbst normal sein muss, damit die Z-Statistik funktioniert. Macht es?

— Andrzej Gis

1

Das OP spricht von der Verteilung der Bevölkerung und nicht von der Verteilung des Mittelwerts. Die Stichprobengröße und der zentrale Grenzwertsatz gelten also nicht.

— Michael R. Chernick

2

Der R-Code wird funktionieren, aber der Z-Score wird ungefähr so aussagekräftig sein wie der Satz "Trauben telefonieren leicht mit dem Füllfederhalter." Es ist ein gültiger Satz, vermittelt aber nichts Sinnvolles.

Nach Ihrem R-Code zu urteilen, scheint es, als ob Sie glauben, dass Ihre Daten Weibull-verteilt sind. In diesem Fall würde ich nur die Weibull-Statistik verwenden und nichts skalieren, es sei denn, Sie müssen dies unbedingt tun. Obwohl Z-Scores in jeder Intro-Statistik-Klasse gelehrt werden, heißt das nicht, dass Sie sie ständig verwenden sollten, und insbesondere nicht, wenn Sie keine symmetrischen Daten haben.

— Brandon Sherman
quelle

1

Wenn die Bevölkerung nicht normal verteilt ist. In diesem Fall nähert sich die Verteilung von Balken (X) {Stichprobenmittelwert} einer Normalverteilung gemäß dem zentralen Grenzwertsatz; für große Stichproben Obwohl wir theoretisch sagen, dass wir Student's-t verwenden, sind t-Verteilung und Z-Verteilung für höhere Werte von n (Stichprobengröße oder Freiheitsgrad) nahezu gleich.

— Arpan Halder
quelle

-4

IHRE DATEN MÜSSEN FÜR EINEN Z-TEST NICHT NORMAL SEIN. (TOWNEND, 2002) DIE VARIANZEN MÜSSEN JEDOCH UNGEFÄHR GLEICH SEIN. UM ZU PRÜFEN, DASS EINE F-PRÜFUNG DER ZWEI DATENSÄTZE DURCHGEFÜHRT WURDE UND DASS IHRE VARIANZEN CA. WENN NICHT, TRANSFORMIEREN SIE DIE DATEN.

— user24546
quelle

9

Die Frage bezieht sich auf die Transformation einer Variablen und nicht auf einen Test. Ich denke, Ihre Antwort trifft nicht zu. Außerdem ist es wahrscheinlich informativer, wenn Sie die vollständige Referenz angeben, anstatt nur eine Referenz für das Namensjahr, und einige Personen Einwände gegen SHOUTING erheben.

— Maarten Buis

Ich bin mit @MaartenBuis einverstanden, aber im Gegensatz zu ihm werde ich dies ablehnen.

— Erik