Sind große Datenmengen für Hypothesentests ungeeignet?


129

In einem kürzlich erschienenen Artikel von Amstat News erklärten die Autoren (Mark van der Laan und Sherri Rose): "Wir wissen, dass für ausreichend große Stichproben jede Studie - auch solche, bei denen die Nullhypothese ohne Wirkung wahr ist - a deklariert statistisch signifikanter Effekt. "

Naja, das wusste ich jedenfalls nicht. Ist das wahr? Bedeutet dies, dass das Testen von Hypothesen für große Datenmengen wertlos ist?


10
+1: Diese Frage enthüllt normalerweise einige interessante Gesichtspunkte.
user603

7
Weitere Informationen zu großen Datenmengen finden Sie unter stats.stackexchange.com/q/7815/919 . (Der Schwerpunkt liegt dort auf der Regressionsmodellierung.)
whuber


8
Wenn eine große Probe macht waren Sie denken , Hypothesentests das falsche Werkzeug, Hypothese wurde dann Tests nicht wirklich die richtige Frage bei kleineren Proben zu beantworten - entweder , dass es falsch war , nur mehr wurde offensichtlich bei großen Probengrößen, aber die gleichen Überlegungen sind relevant . Wenn Sie aufgrund eines signifikanten Ergebnisses bei einer sehr kleinen Effektgröße sagen, dass dies nicht das ist, was ich wollte, ich wollte, dass es mir sagt, ob es wichtig ist, dann war das Testen von Hypothesen zunächst nur das falsche Werkzeug. Für diese Art von Problem gibt es geeignetere Tools (z. B. Konfidenzintervalle, Äquivalenztests usw.).
Glen_b

Antworten:


91

Es ist nicht wahr. Wenn die Nullhypothese zutrifft, wird sie bei großen Stichproben nicht häufiger verworfen als bei kleinen. Es gibt eine fehlerhafte Ablehnungsrate, die normalerweise auf 0,05 (Alpha) eingestellt ist, die jedoch nicht von der Stichprobengröße abhängt. Wörtlich genommen ist die Aussage daher falsch. Trotzdem ist es möglich, dass in einigen Situationen (auch bei ganzen Feldern) alle Nullen falsch sind und daher alle zurückgewiesen werden, wenn N hoch genug ist. Aber ist das eine schlechte Sache?

Es stimmt, dass trivial kleine Effekte bei sehr großen Stichprobengrößen als "signifikant" eingestuft werden können. Das bedeutet nicht, dass Sie nicht so große Stichprobengrößen haben sollten. Dies bedeutet, dass die Art und Weise, wie Sie Ihren Befund interpretieren, von der Effektgröße und der Empfindlichkeit des Tests abhängt. Wenn Sie eine sehr kleine Effektgröße und einen hochempfindlichen Test haben, müssen Sie erkennen, dass der statistisch signifikante Befund möglicherweise nicht aussagekräftig oder nützlich ist.

Da einige Leute nicht glauben, dass ein Test der Nullhypothese, wenn die Null wahr ist , immer eine Fehlerrate aufweist, die dem für jede Stichprobengröße ausgewählten Grenzpunkt entspricht, ist hier eine einfache Simulation, Rum den Punkt zu beweisen. Stellen Sie N so groß ein, wie Sie möchten, und die Fehlerrate von Typ I bleibt konstant.

# number of subjects in each condition
n <- 100
# number of replications of the study in order to check the Type I error rate
nsamp <- 10000

ps <- replicate(nsamp, {
    #population mean = 0, sd = 1 for both samples, therefore, no real effect
    y1 <- rnorm(n, 0, 1) 
    y2 <- rnorm(n, 0, 1)
    tt <- t.test(y1, y2, var.equal = TRUE)
    tt$p.value
})
sum(ps < .05) / nsamp

# ~ .05 no matter how big n is. Note particularly that it is not an increasing value always finding effects when n is very large.

8
+1: In der Tat stimmen alle drei Antworten logisch überein.
user603

1
Endlich habe ich eine Entlarvung von etwas gefunden, das mir ein (nicht-statistischer) Professor vor langer Zeit erzählt hat.
Jase

1
@ Sympa, nein. Nur weil SE sinkt und N steigt, heißt das nicht, dass Sie immer einen Effekt mit großem N finden (siehe Simulation). Bedenken Sie, dass mit sinkender SE die Qualität der Schätzung des Effekts zunimmt. Wenn es keinen Bevölkerungseffekt gibt, ist es viel wahrscheinlicher, dass er nahe bei 0 liegt und keinen Unterschied zeigt. Tatsächlich ist die Verteilung der p-Werte unabhängig von der Stichprobengröße flach, wenn die Null wahr ist (schreiben Sie dafür Ihre eigene Simulation). In der Antwort liegt kein Widerspruch.
John

4
Dann würden Sie sich irren. Vielleicht möchten Sie auch die anderen Antworten hier lesen. Da Sie der Beziehung zwischen Simulation und Hypothesentest nicht folgen können, kann ich wohl nur auf Ihre primäre Behauptung verweisen, dass der Standardfehler sinkt, t steigt und p sinkt. Dies gilt nur, wenn der Effekt konstant bleibt. Der Effekt ist jedoch eine Zufallsstichprobe, und wenn der wahre Effekt 0 ist, neigt der beobachtete Effekt mit zunehmendem N dazu, abzunehmen. Selbst wenn N ansteigt, erhöht SE daher nicht die t-Werte, da der Zähler im t-Wert ebenfalls niedriger ist.
John

1
Die Tatsache, dass rnorm keine irrationale Zahl erzeugen kann, ist im Beispiel irrelevant. Auch wenn es aus einem Mittelwert von 0 und sd von 1 nicht genau normal ist, ist es für beide Stichproben nicht normal. Die Typ-I-Fehlerrate ist möglicherweise etwas niedriger als 0,05, sollte jedoch unabhängig von N konstant bleiben. Dies gilt nicht für alle Simulationen, da ich eine diskrete wählen hätte können, bei der dies kein Problem darstellt. (Wenn Sie wirklich ein esoterisches Problem ansprechen wollten, sollten Sie sich mit Pseudozufälligkeit befasst haben.)
John,

31

Ich stimme den Antworten zu, möchte aber hinzufügen, dass die Frage möglicherweise umgeleitet werden könnte. Ob man eine Hypothese testet oder nicht, ist eine Forschungsfrage, die zumindest im Allgemeinen unabhängig davon sein sollte, über wie viele Daten man verfügt. Wenn Sie wirklich eine Hypothese testen müssen, tun Sie dies und fürchten Sie sich nicht davor, kleine Auswirkungen zu erkennen. Aber fragen Sie zuerst, ob dies zu Ihren Forschungszielen gehört.

Nun zu einigen Fragen:

  • Einige Nullhypothesen sind konstruktionsbedingt absolut richtig. Wenn Sie beispielsweise einen Pseudozufallszahlengenerator auf Gleichverteilung testen und PRG wirklich gleichverteilt ist (was ein mathematischer Satz wäre), gilt die Null. Wahrscheinlich können sich die meisten von Ihnen interessantere Beispiele aus der Praxis vorstellen, die sich aus der Randomisierung von Experimenten ergeben, bei denen die Behandlung tatsächlich keinen Effekt hat. (Ich würde die gesamte Literatur auf esp als Beispiel halten. ;-)

  • In einer Situation, in der eine "einfache" Null gegen eine "zusammengesetzte" Alternative getestet wird, wie bei klassischen T-Tests oder Z-Tests, ist normalerweise eine Stichprobengröße proportional zu erforderlich , um eine Effektgröße von ϵ zu ermitteln . In jeder Studie gibt es eine praktische Obergrenze, was bedeutet, dass es eine praktische Untergrenze für die Größe eines nachweisbaren Effekts gibt. Theoretisch sind der Laan und Rose also richtig, aber wir sollten darauf achten, ihre Schlussfolgerungen umzusetzen.1/ϵ2ϵ


Ist das nicht alles eine Frage des Fehlers Typ I im Vergleich zum Fehler Typ II (oder der Leistung)? Wenn man die Fehlerwahrscheinlichkeit vom Typ I ( ) auf 0,05 festlegt, ist es offensichtlich (außer im Einzelfall) 0,05, ob die Stichprobe groß ist oder nicht. Aber für eine gegebene Fehlerwahrscheinlichkeit vom Typ I ist 0,05, z. B. die Leistung oder die Wahrscheinlichkeit, dass Sie den Effekt feststellen, wenn er vorhanden ist, bei großen Stichproben größer. α

@fcop Ihre Kommentare scheinen, obwohl sie richtig sind, auf andere Antworten gerichtet zu sein. Sie übersehen den Punkt, der darauf hindeutet, dass nicht alle statistischen Analysen Hypothesentests sein müssen. Fehler vom Typ I und II haben nur dann Bedeutung, wenn formale Hypothesentests durchgeführt werden.
Whuber

H0:μ=1H1:μ1

@fcop Danke für die Erklärung. Ich stimme Ihrer Argumentation zu: Wenn die Null wahr ist, werden selbst große Studien konstruktionsbedingt einen signifikanten Effekt mit einer Wahrscheinlichkeit finden, die höchstens der Größe ihres Tests entspricht - das heißt, es ist unwahrscheinlich, dass sie einen signifikanten Effekt finden.
Whuber

19

Hypothesentests konzentrierten sich traditionell auf p-Werte, um statistische Signifikanz abzuleiten, wenn Alpha kleiner als 0,05 ist und eine große Schwäche aufweist. Und das heißt, bei einer ausreichend großen Stichprobe kann jedes Experiment die Nullhypothese irgendwann verwerfen und geringfügige Unterschiede erkennen, die sich als statistisch signifikant herausstellen.

Aus diesem Grund strukturieren Pharmaunternehmen klinische Studien, um die FDA-Zulassung für sehr große Proben zu erhalten. Die große Stichprobe reduziert den Standardfehler auf nahe Null. Dies wiederum erhöht den t-Wert künstlich und senkt den p-Wert entsprechend auf nahe 0%.

Ich versammle mich in wissenschaftlichen Communities, die nicht durch wirtschaftliche Anreize und damit zusammenhängende Interessenkonflikt-Hypothesen verfälscht sind. Das Testen verlagert sich weg von jeglichen p-Wert-Messungen hin zu Effektgrößenmessungen. Dies liegt daran, dass die Einheit der statistischen Distanz oder Differenzierung in der Effektgrößenanalyse die Standardabweichung anstelle des Standardfehlers ist. Die Standardabweichung ist völlig unabhängig von der Stichprobengröße. Der Standardfehler ist dagegen völlig abhängig von der Stichprobengröße.

Jeder, der Hypothesentests skeptisch gegenübersteht, die statistisch signifikante Ergebnisse basierend auf großen Stichproben und p-wertbezogenen Methoden erzielen, ist zu Recht skeptisch. Sie sollten die Analyse mit denselben Daten, jedoch mit statistischen Effektgrößentests, wiederholen. Und beobachten Sie dann, ob die Effektgröße als wesentlich erachtet wird oder nicht. Auf diese Weise können Sie feststellen, dass eine Reihe von statistisch signifikanten Unterschieden mit unwesentlichen Effektgrößen verbunden sind. Das ist es, was Forscher in klinischen Studien manchmal meinen, wenn ein Ergebnis statistisch signifikant, aber nicht "klinisch signifikant" ist. Sie bedeuten, dass eine Behandlung besser ist als ein Placebo, aber der Unterschied ist so gering, dass es für den Patienten im klinischen Kontext keinen Unterschied macht.


1
Die große Stichprobe einer Person ist die kleine Stichprobe einer anderen Person. :)
Iterator

3
Hast du damals nicht die falsche Frage gestellt? Vielleicht sollte das Zulassungsverfahren der FDA einen größeren Gewinn gegenüber dem Placebo (möglicherweise im Zusammenhang mit den Kosten des Arzneimittels, einschließlich seiner nachteiligen Auswirkungen) angeben, anstatt nur statistische Signifikanz zu erfordern? Da es durchaus einen realen, wenn auch sehr geringen Unterschied geben kann, wurde gezeigt, dass dieser Unterschied statistisch signifikant ist, wie gering er auch sein mag.
Emil Vikström

Die FDA verlangt keine "nur statistische Signifikanz". Das wäre absurd. Jeder in der Branche versteht, was "klinisch signifikant" bedeutet. Die FDA bewertet den statistischen Nachweis der Wirksamkeit des Arzneimittels anhand klinischer Endpunkte, z. B. Remission, anhand von Gesundheits- und Sicherheitsbedenken. Bitte lesen Sie die FDA-Richtlinien, bevor Sie unbegründete Behauptungen aufstellen.
Qwr

15

Ein (frequentistischer) Hypothesentest, der sich genau mit der Frage der Wahrscheinlichkeit der beobachteten Daten befasst oder etwas Extremeres, würde wahrscheinlich annehmen, dass die Nullhypothese wahr ist. Diese Interpretation ist für die Stichprobengröße gleichgültig. Diese Interpretation gilt unabhängig davon, ob die Stichprobe eine Größe von 5 oder 1.000.000 hat.

Eine wichtige Einschränkung ist, dass der Test nur für Stichprobenfehler relevant ist. Messfehler, Stichprobenprobleme, Abdeckungsfehler, Dateneingabefehler usw. liegen außerhalb des Geltungsbereichs von Stichprobenfehlern. Mit zunehmender Stichprobengröße werden Nicht-Stichprobenfehler einflussreicher, da kleine Abweichungen zu erheblichen Abweichungen vom Zufallsstichprobenmodell führen können. Infolgedessen werden Signifikanztests weniger nützlich.

Dies ist in keiner Weise eine Anklage gegen Signifikanztests. Wir müssen jedoch vorsichtig mit unseren Zuschreibungen sein. Ein Ergebnis kann statistisch signifikant sein. Wir müssen jedoch vorsichtig sein, wie wir Zuschreibungen vornehmen, wenn die Stichprobe groß ist. Ist dieser Unterschied auf unseren hypothetischen Erzeugungsprozess in Bezug auf Stichprobenfehler zurückzuführen oder ist er das Ergebnis einer Reihe möglicher Nicht-Stichprobenfehler, die die Teststatistik beeinflussen könnten (die die Statistik nicht berücksichtigt)?

Ein weiterer Gesichtspunkt bei großen Stichproben ist die praktische Bedeutung eines Ergebnisses. Ein aussagekräftiger Test könnte (auch wenn wir Fehler ohne Stichprobe ausschließen können) einen Unterschied nahelegen, der in praktischer Hinsicht trivial ist. Auch wenn dieses Ergebnis angesichts des Stichprobenmodells unwahrscheinlich ist, ist es im Kontext des Problems von Bedeutung? Bei einer ausreichend großen Stichprobe kann ein Unterschied von einigen US-Dollar ausreichen, um ein Ergebnis zu erzielen, das beim Vergleich des Einkommens zwischen zwei Gruppen statistisch signifikant ist. Ist das in irgendeinem Sinn wichtig? Die statistische Signifikanz ist kein Ersatz für Urteilsvermögen und Sachkenntnis.

Abgesehen davon ist die Null weder wahr noch falsch. Es ist ein Modell. Es ist eine Annahme. Wir gehen davon aus, dass die Null wahr ist, und bewerten unsere Stichprobe anhand dieser Annahme. Sollte dies bei unserer Stichprobe unwahrscheinlich sein, vertrauen wir mehr auf unsere Alternative. Zu hinterfragen, ob eine Null in der Praxis jemals wahr ist oder nicht, ist ein Missverständnis der Logik der Signifikanzprüfung.


3
Dies stützt ein Argument für eine erhöhte Modellkomplexität, wenn die Stichprobengröße groß wird - im Fall einer großen Stichprobe ist der Stichprobenfehler nicht mehr die dominierende Quelle der Unsicherheit. Natürlich ist dies nur in einem Bayes'schen Rahmen "sinnvoll", der neben dem Stichprobenfehler auch andere Unsicherheitsquellen zulässt.
Wahrscheinlichkeitsrechnung

13

Ein einfacher Punkt, der in einer anderen Antwort nicht direkt angesprochen wird, ist, dass es einfach nicht wahr ist, dass "alle Nullhypothesen falsch sind".

Die einfache Hypothese, dass eine physische Münze eine Kopfwahrscheinlichkeit von genau 0,5 hat, ist falsch.

α

α


9

In gewissem Sinne sind [alle] viele Nullhypothesen [immer] falsch (die Gruppe von Menschen, die in Häusern mit ungeraden Zahlen leben , verdient im Durchschnitt nie genau dasselbe wie die Gruppe von Menschen, die in Häusern mit geraden Zahlen leben).

Tαn0.5Tααn

Dies ist kein Mangel an statistischen Tests. Einfach eine Konsequenz der Tatsache, dass wir ohne weitere Informationen (a prior) eine große Anzahl kleiner Inkonsistenzen mit der Null haben, die als Beweis gegen die Null genommen werden müssen. Egal wie trivial sich diese Inkonsistenzen herausstellen.

P^(|μ¯1μ¯2|2>η|η,X)


Das ist seltsam ... intuitiv scheint dies dem Gesetz der großen Zahlen zu widersprechen.
Carlos Accioly

Carlos:> Kannst du genauer sein?
user603

n

1
@Carlos - Konvergenz bedeutet jedoch nicht Gleichheit. Dies ist nur für nicht erreichbare Grenzen der Unendlichkeit garantiert. Es gibt also keinen Widerspruch ;-)

5

Die kurze Antwort lautet "nein". Die Erforschung von Hypothesentests im asymptotischen Regime unendlicher Beobachtungen und multipler Hypothesen war in den letzten 15 bis 20 Jahren aufgrund von Microarray-Daten und Finanzdatenanwendungen sehr, sehr aktiv. Die lange Antwort finden Sie auf der Kursseite von Stat 329 "Large-Scale Simultaneous Inference", die Brad Efron 2010 unterrichtet hat. Ein vollständiges Kapitel ist dem Testen von Hypothesen in großem Maßstab gewidmet.


7
Ich glaube, dass sich Efrons Buch auf eine große Anzahl von Variablen (und die daraus resultierenden vielfältigen Testprobleme) konzentriert, nicht auf die Stichprobengröße.
Galit Shmueli

4

Beim Testen von Hypothesen für große Datenmengen sollte das gewünschte Differenzniveau berücksichtigt werden, und nicht, ob ein Unterschied vorliegt oder nicht. Sie interessieren sich nicht für das H0, dass die Schätzung genau 0 ist. Ein allgemeiner Ansatz wäre, zu testen, ob die Differenz zwischen der Nullhypothese und dem beobachteten Wert größer als ein gegebener Grenzwert ist.

X1¯>X2¯

T=X1¯X2¯δS2n+δS2nN(δS2n,1)
T=X1¯X2¯S2nN(δS2n,1)

H0:X1¯X2¯=δ

X1¯X2¯δS2nN(0,1)

HAX1¯X2¯>δ

mod.test <- function(x1,x2,dif,...){
    avg.x1 <- mean(x1)
    avg.x2 <- mean(x2)
    sd.x1 <- sd(x1)
    sd.x2 <- sd(x2)

    sd.comb <- sqrt((sd.x1^2+sd.x2^2)/2)
    n <- length(x1)
    t.val <- (abs(avg.x1-avg.x2))*sqrt(n)/sd.comb
    ncp <- (dif*sqrt(n)/sd.comb)
    p.val <- pt(t.val,n-1,ncp=ncp,lower.tail=FALSE)
    return(p.val)
}

n <- 5000

test1 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.05))$p.value)
table(test1<0.05)
test2 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.5))$p.value)
table(test2<0.05)

test3 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.05),dif=0.3))
table(test3<0.05)

test4 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.5),dif=0.3))
table(test4<0.05)

Welches gibt:

> table(test1<0.05)
FALSE  TRUE 
   24    76 

> table(test2<0.05)
TRUE 
 100 

> table(test3<0.05)
FALSE 
  100 

> table(test4<0.05)
TRUE 
 100 

Gibt es in der ersten Gleichung keine Kopie oder einen Tippfehler?
user603

Ich sehe es nicht?
Joris Meys

4

"Bedeutet das, dass das Testen von Hypothesen für große Datenmengen wertlos ist?"

Nein, das heißt nicht. Die allgemeine Botschaft ist, dass Entscheidungen, die nach der Durchführung eines Hypothesentests getroffen werden, immer die geschätzte Effektgröße und nicht nur den p-Wert berücksichtigen sollten . Insbesondere bei Experimenten mit sehr großen Probengrößen wird diese Notwendigkeit, die Effektgröße zu berücksichtigen, dramatisch. Natürlich gefällt dies den Benutzern im Allgemeinen nicht, da das Verfahren weniger "automatisch" wird.

Betrachten Sie dieses Simulationsbeispiel. Angenommen, Sie haben eine Zufallsstichprobe von 1 Million Beobachtungen aus einer Standardnormalverteilung.

n <- 10^6
x <- rnorm(n)

0.01

y <- rnorm(n, mean = 0.01)

95%2.5×1014

t.test(x, y)

        Welch Two Sample t-test

data:  x and y
t = -7.6218, df = 1999984, p-value = 2.503e-14
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.013554059 -0.008009031
sample estimates:
   mean of x    mean of y 
0.0008947038 0.0116762485

95%[0.013,0.008]

Ist ein Unterschied zwischen den beiden Bevölkerungsmitteln in dieser Größenordnung für das jeweilige Problem, das wir untersuchen, relevant oder nicht?


Ich bin mit Ihrer Antwort einverstanden, mit Ausnahme des ersten Satzes, den ich in "Ja, das bedeutet normalerweise" ändern würde, da bei großen Samples von etwa einer Million die Effektgrößen SO klein sind.
Radfahrer

α

3

HST:d1=1.23,d2=1.11,di

Aber diese sichere Hypothese interessiert einen normalerweise nicht. Wenn Sie sich überlegen, was Sie mit dem Hypothesentest tatsächlich tun möchten, werden Sie bald feststellen, dass Sie die Nullhypothese nur ablehnen sollten, wenn Sie etwas Besseres haben, durch das Sie sie ersetzen können. Auch wenn Ihre Null die Daten nicht erklärt, ist es sinnlos, sie wegzuwerfen, es sei denn, Sie haben einen Ersatz. Würden Sie jetzt immer die Null durch die "sichere Sache" -Hypothese ersetzen? Wahrscheinlich nicht, weil Sie diese "sichere Sache" -Hypothese nicht verwenden können, um über Ihren Datensatz hinaus zu verallgemeinern. Es ist nicht viel mehr als das Ausdrucken Ihrer Daten.

Was Sie also tun sollten, ist die Hypothese zu spezifizieren, an der Sie tatsächlich interessiert wären, zu handeln, wenn sie wahr wären. Führen Sie dann den entsprechenden Test durch, um diese Alternativen miteinander zu vergleichen - und nicht mit einer irrelevanten Klasse von Hypothesen, von denen Sie wissen, dass sie falsch oder unbrauchbar sind.

H0:μ=0H1:μ{±1,±2,±3,±4,±5,±6}0.5100

Die Schlussfolgerung ist im Grunde, dass Sie Ihren Hypothesenraum spezifizieren müssen - jene Hypothese, die Sie tatsächlich interessiert. Es scheint, dass dies bei Big Data eine sehr wichtige Sache wird, einfach weil Ihre Daten so viel Auflösungsvermögen haben. Es scheint auch wichtig zu sein, wie eine Hypothese - Punkt mit Punkt, Verbindung mit Verbindung - zu vergleichen, um gute Ergebnisse zu erzielen.


3

Nein. Es stimmt, dass alle nützlichen Punkthypothesentests konsistent sind und daher ein signifikantes Ergebnis liefern, wenn nur die Stichprobengröße groß genug ist und ein irrelevanter Effekt vorliegt. Um diesen Nachteil des Testens statistischer Hypothesen (der bereits in der Antwort von Gaetan Lion erwähnt wurde) zu überwinden, gibt es Relevanztests. Diese ähneln Äquivalenztests, sind jedoch noch seltener. Für einen Relevanztest wird die Größe eines minimalen relevanten Effekts vorgegeben. Ein Relevanztest kann auf einem Konfidenzintervall für den Effekt basieren: Wenn das Konfidenzintervall und der Relevanzbereich nicht zusammenpassen, können Sie die Null ablehnen.

Van der Laan und Rose gehen jedoch in ihrer Aussage davon aus, dass in Studien auch echte Nullhypothesen überprüft werden. Wenn eine Nullhypothese zutrifft, ist die Wahrscheinlichkeit der Ablehnung nicht größer als Alpha, insbesondere bei großen Stichproben und selbst wenn diese falsch angegeben wurden. Ich kann nur feststellen, dass die Stichprobenverteilung systematisch von der Populationsverteilung abweicht.


3

Der Artikel, den Sie erwähnen, hat einen gültigen Punkt, was Standard-Frequentist-Tests betrifft. Aus diesem Grund ist das Testen einer bestimmten Effektgröße sehr wichtig. Zur Veranschaulichung ist hier eine Anova zwischen 3 Gruppen, wobei sich Gruppe B geringfügig von Gruppe A und C unterscheidet. Versuchen Sie dies in r:

treat_diff=0.001 #size of treatment difference
ns=c(10, 100, 1000, 10000, 100000, 1000000) #values for sample size per group considered
reps=10 #number of test repetitions for each sample size considered
p_mat=data.frame(n=factor(), p=double()) #create empty dataframe for outputs
for (n in ns){ #for each sample size
  for (i in c(1:reps)){ #repeat anova test ‘reps’ time
    treatA=data.frame(treatment="A", val=rnorm(n)) 
    treatB=data.frame(treatment="B", val=rnorm(n)+treat_diff) #this is the group that has the means slightly different from the other groups
    treatC=data.frame(treatment="C", val=rnorm(n))
    all_treatment=rbind(treatA, treatB, treatC)
    treatment_aov=aov(val~treatment, data=all_treatment)
    aov_summary=summary(treatment_aov)
    p=aov_summary[[1]][["Pr(>F)"]][1]
    temp_df=data.frame(n=n, p=p)
    p_mat=rbind(p_mat, temp_df)
  }
}

library(ggplot2)
p <- ggplot(p_mat, aes(factor(n), p))
p + geom_boxplot()

Wie erwartet steigt mit einer größeren Anzahl von Proben pro Test die statistische Signifikanz des Tests: Bildbeschreibung hier eingeben


2

Ich denke, was sie bedeuten, ist, dass man oft eine Annahme über die Wahrscheinlichkeitsdichte der Nullhypothese macht, die eine "einfache" Form hat, aber nicht der wahren Wahrscheinlichkeitsdichte entspricht.

Bei kleinen Datenmengen haben Sie möglicherweise nicht genügend Empfindlichkeit, um diesen Effekt zu erkennen. Bei großen Datenmengen lehnen Sie jedoch die Nullhypothese ab und schließen daraus, dass es einen neuen Effekt gibt, anstatt zu folgern, dass Ihre Annahme über die Nullhypothese falsch ist.


1
Ich weiß nicht, ob Mark und Shern Ihre Ansicht im Sinn hatten, sondern nur, um Ihren Standpunkt zu formulieren. Wenn das Modell für die Daten unter der Null „falsch“ ist, lehnen Sie die Nullhypothese für ausreichend große Daten ab.

1

α

H0H1

Die Leistung erhöht sich mit der Stichprobengröße (alle anderen Dinge sind gleich).

Aber die Aussage, dass "wir wissen, dass für ausreichend große Stichproben jede Studie - auch solche, bei denen die Nullhypothese ohne Wirkung zutrifft - eine statistisch signifikante Wirkung ausweist." ist falsch.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.