Wenn der p-Wert genau 1 (1.0000000) ist, wie hoch sollten die Konfidenzintervallgrenzen sein, damit die Nullhypothese wahr ist? [geschlossen]


12

Dies ist eine rein hypothetische Frage. Eine sehr verbreitete Aussage ist, dass H0 niemals wahr ist, es ist nur eine Frage der Stichprobengröße.

Nehmen wir an, dass es für real absolut keinen messbaren Unterschied zwischen zwei Mitteln ( μ1=μ2 ) gibt, die aus der normalverteilten Population gezogen werden (für μ=0 und σ geschätzt =1 ). Wir gehen von N=16 pro Gruppe aus und verwenden den t Test. Dies würde bedeuten, dass der p1.00000 ist, was anzeigt, dass es absolut keine Abweichung von H0 . Dies würde anzeigen, dass die Teststatistik 0 . Die mittlere Differenz zwischen den Gruppen wäre 0. Was wären die Grenzen des 95% -Konfidenzintervalls für die mittlere Differenz in diesem Fall? Wären sie [0.0,0.0] ?

Der Hauptpunkt meiner Frage war, wann wir wirklich sagen können, dass H0 wahr ist, dh μ1=μ2 in diesem Fall? Oder können wir im Rahmen des Frequentismus beim Vergleich zweier Mittelwerte wirklich "keinen Unterschied" sagen?


1
Ich würde sagen, dass dies hier bereits beantwortet wurde stats.stackexchange.com/questions/275677/… , aber ich bestehe nicht darauf.
Tim

1
Ich habe Probleme, einen Weg zu finden, um bei positiven Populationsvarianzen zu erhalten . p=1
Dave


3
"Wir gehen von N = 16 pro Gruppe aus und verwenden den t-Test. Dies würde bedeuten, dass der p-Wert 1,00000 beträgt, was bedeutet, dass es absolut keine Abweichung von H0 gibt." Warum argumentieren Sie, dass etwas (worauf bezieht sich "dies"?) Bedeutet, dass der p-Wert 1 ist. In der Regel ist der p-Wert gleichmäßig verteilt, wenn H_0 wahr ist und p = 1 fast nie auftritt.
Sextus Empiricus

2
@MartijnWeterings Ist absolut korrekt - nur weil Sie zwei Verteilungen abtasten, die tatsächlich identisch sind, bedeutet dies nicht, dass Sie beim Vergleich einen p-Wert von 1 erhalten. Per Definition erhalten Sie in 5% der Fälle einen p-Wert unter 0,05.
Nuclear Wang

Antworten:


16

Ein Konfidenzintervall für einen t-Test ist von der Form x¯1x¯2±tcrit,αsx¯1x¯2 , wobei x¯1 und x¯2 sind die Probenmittel, tcrit,α ist der kritische t Wert bei dem gegebenen α , und sx¯1x¯2 ist der Standardfehler der Mittelwertdifferenz . Wennp=1.0 , dann istx¯1x¯2=0 . Sodie Formel nur±tcrit,αsx¯1x¯2 , und die Grenzen sind nur {tcrit,αsx¯1x¯2 ,tcrit,αsx¯1x¯2 }.

Ich bin mir nicht sicher, warum Sie glauben, dass die Limits {0,0}.Der kritische t Wert ist nicht Null und der Standardfehler der mittleren Differenz ist nicht Null.


10

Super-faul sein und R verwenden, um das Problem numerisch zu lösen, anstatt die Berechnungen von Hand durchzuführen:

Definieren Sie eine Funktion, die normalverteilte Werte mit einem Mittelwert von (fast!) Genau Null und einer SD von genau 1 liefert :

rn2 <- function(n) {r <- rnorm(n); c(scale(r)) }

Führen Sie einen T-Test durch:

t.test(rn2(16),rn2(16))

    Welch Two Sample t-test

data:  rn2(16) and rn2(16)
t = 1.7173e-17, df = 30, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.7220524  0.7220524
sample estimates:
   mean of x    mean of y 
6.938894e-18 8.673617e-19 

Die Mittelwerte sind wegen der Fließkomma-Ungenauigkeit nicht genau Null.

Direkter sind die CIs ± sqrt(1/8)*qt(0.975,df=30) ; Die Varianz jedes Mittelwerts beträgt 1/16, die gepoolte Varianz also 1/8.


8

Das CI kann beliebige Grenzen haben, ist aber genau um Null zentriert

Für einen T-Test mit zwei Stichproben (Testen auf einen Unterschied im Mittelwert zweier Populationen) entspricht ein p-Wert von genau eins dem Fall, in dem die beobachteten Stichprobenmittelwerte genau gleich sind. (Die Stichprobenvarianzen können beliebige Werte annehmen.) Beachten Sie, dass die p-Wert-Funktion für den Test wie folgt lautet:

pp(x,y)=P(|X¯Y¯SY/nY+SY/nY||x¯y¯sY/nY+sY/nY|).

Das Setzen von x¯=y¯ ergibt also:

p(x,y)=P(|X¯Y¯SY/nY+SY/nY|0)=1.

Angenommen, Sie bilden das (ungefähre) Standard-Konfidenzintervall mit der Welch-Satterwaite-Näherung. In diesem Fall ergibt die Annahme, dass x¯=y¯ (um einen exakten p-Wert von eins zu erhalten) das Konfidenzintervall:

CI(1α)=[0±sXnX+tDF,α/2sYnY],

wobei die Grade-of-freedom DF wird von der Welch-Satterwaite Näherung bestimmt. Abhängig von den beobachteten Stichprobenabweichungen im Problem kann das Konfidenzintervall ein beliebiges endliches Intervall sein, das um Null zentriert ist. Das heißt, das Konfidenzintervall kann beliebige Grenzen haben, solange es genau um Null zentriert ist.


Wenn die zugrunde liegenden Daten tatsächlich aus einer kontinuierlichen Verteilung stammen, tritt dieses Ereignis natürlich mit der Wahrscheinlichkeit Null auf, aber nehmen wir an, dass dies geschieht.


Die Frage lautet "σ geschätzt = 1".
Akkumulation

Diese Bedingung ist nicht erforderlich, um einen p-Wert von 1 zu erhalten, daher habe ich sie fallen gelassen.
Setzen Sie Monica

3

Es ist schwierig, eine überzeugende philosophische Diskussion über Dinge zu führen, bei denen keine Wahrscheinlichkeit besteht, dass sie eintreten. Deshalb zeige ich Ihnen einige Beispiele, die sich auf Ihre Frage beziehen.

Wenn Sie zwei enorme unabhängige Stichproben derselben Verteilung haben, haben beide Stichproben immer noch eine gewisse Variabilität. Die gepoolte 2-Stichproben-t-Statistik ist in der Nähe von, aber nicht genau 0. Der P-Wert wird als Unif(0,1), und das 95% -Konfidenzintervall ist sehr kurz und sehr nahe bei 0 zentriert 0.

Ein Beispiel für einen solchen Datensatz und einen solchen t-Test:

set.seed(902)
x1 = rnorm(10^5, 100, 15)  
x2 = rnorm(10^5, 100, 15)
t.test(x1, x2, var.eq=T)

        Two Sample t-test

data:  x1 and x2
t = -0.41372, df = 2e+05, p-value = 0.6791
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.1591659  0.1036827
sample estimates:
mean of x mean of y 
 99.96403  99.99177 

Hier sind zusammengefasste Ergebnisse von 10.000 solchen Situationen. Erstens die Verteilung der P-Werte.

set.seed(2019)
pv = replicate(10^4, 
   t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$p.val)
mean(pv)
[1] 0.5007066   # aprx 1/2
hist(pv, prob=T, col="skyblue2", main="Simulated P-values")
 curve(dunif(x), add=T, col="red", lwd=2, n=10001)

enter image description here

Als nächstes die Teststatistik:

set.seed(2019)  # same seed as above, so same 10^4 datasets
st = replicate(10^4, 
       t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$stat)
mean(st)
[1] 0.002810332  # aprx 0
hist(st, prob=T, col="skyblue2", main="Simulated P-values")
 curve(dt(x, df=2e+05), add=T, col="red", lwd=2, n=10001)

enter image description here

Und so weiter für die Breite des CI.

set.seed(2019)
w.ci = replicate(10^4, 
        diff(t.test(rnorm(10^5,100,15),
         rnorm(10^5,100,15),var.eq=T)$conf.int)) 
mean(w.ci)
[1] 0.2629603

Es ist fast unmöglich, einen P-Wert von Eins zu erhalten, wenn ein exakter Test mit kontinuierlichen Daten durchgeführt wird, bei dem die Annahmen erfüllt sind. So sehr, dass ein weiser Statistiker darüber nachdenkt, was bei einem P-Wert von 1 möglicherweise schief gelaufen ist.

Beispielsweise können Sie der Software zwei identische große Beispiele geben. Die Programmierung wird fortgesetzt, als wären dies zwei unabhängige Samples, und es werden merkwürdige Ergebnisse erzielt. Aber auch dann hat das CI keine Breite von 0.

set.seed(902)
x1 = rnorm(10^5, 100, 15)  
x2 = x1
t.test(x1, x2, var.eq=T)

        Two Sample t-test

data:  x1 and x2
t = 0, df = 2e+05, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval: 
 -0.1316593  0.1316593
sample estimates:
mean of x mean of y 
 99.96403  99.96403 

Das ist alles fair genug, denn die Normalverteilung ist stetig, die Wahrscheinlichkeit für ein bestimmtes Beispiel ist Null, egal ob u1 = u2 oder u1-u2 = -0,977 oder was auch immer. Ich war versucht zu kommentieren, dass "dies niemals passieren wird und die Chancen in diesem Fall nicht stimmen", aber dann dachte ich, nein, es macht Sinn anzunehmen, dass dies geschehen ist und akzeptierte, dass dies geschehen ist Wahrscheinlichkeit Null als ein bestimmtes Beispiel .
Lewian

1
Dies ist die richtige Antwort auf die falsche Frage
David

1
@ David. Möglicherweise. Wenn Sie angeben können, was Ihrer Meinung nach die richtige Frage ist, und eine Antwort vorschlagen können, kann dies überall hilfreich sein. Ich habe nur versucht, ein paar meiner Meinung nach verschiedene Missverständnisse anzusprechen.
BruceET

Das OP erklärte: "Eine sehr verbreitete Aussage ist, dass H0 niemals wahr ist." @ BruceETs Antwort zeigt, WARUM H0 niemals akzeptiert werden kann. Je näher H0 kommt wahr, die gleichmäßigen Zufall P wird, das bedeutet eine P zwischen (0.98,0.99) ist ebenso wahrscheinlich als P zwischen (0.1, 0.2) , wenn H0 ist wahr.
Ron Jensen - Wir sind alle Monica

1

Die einfache Antwort (+1 zu Noah) erklärt, dass das Konfidenzintervall für die mittlere Differenz möglicherweise immer noch eine Länge ungleich Null hat, da es von der beobachteten Variation in der Stichprobe auf andere Weise abhängt als der p-Wert.

Sie fragen sich vielleicht immer noch, warum das so ist. Da ist es nicht so seltsam, sich vorzustellen, dass ein hoher p-Wert auch ein kleines Konfidenzintervall bedeutet. Immerhin entsprechen beide etwas, was einer Bestätigung der Nullhypothese nahe kommt. Warum ist dieser Gedanke nicht richtig?

Ein hoher p-Wert ist nicht dasselbe wie ein kleines Konfidenzintervall.

  • Der p-Wert ist ein Indikator dafür, wie extrem eine bestimmte Beobachtung ist (bei bestimmten Hypothesen extrem), indem ausgedrückt wird, wie wahrscheinlich es ist, eine bestimmte Abweichung zu beobachten. Es ist ein Ausdruck der beobachteten Effektgröße in Bezug auf die Genauigkeit des Experiments (eine große beobachtete Effektgröße hat möglicherweise keine große Bedeutung, wenn das Experiment so ungenau ist, dass diese Beobachtungen vom statistischen / probabilistischen Standpunkt aus nicht extrem sind ). Wenn Sie einen p-Wert von 1 beobachten, bedeutet dies (nur), dass Sie einen Null-Effekt beobachtet haben, da die Wahrscheinlichkeit, ein solches Null-Ergebnis oder höher zu beobachten, gleich 1 ist (dies ist jedoch nicht dasselbe wie das, was es gibt Null - Effekt).

    Nebenbemerkung: Warum p-Werte? Der p-Wert drückt die tatsächlich beobachtete Effektgröße im Verhältnis zu den erwarteten Effektgrößen (Wahrscheinlichkeiten) aus. Dies ist relevant, da Experimente aufgrund von häufigen Schwankungen bei Daten / Beobachtungen möglicherweise rein zufällig Beobachtungen von relevanter Effektgröße generieren. Die Anforderung, dass eine Beobachtung / ein Experiment einen niedrigen p-Wert aufweist, bedeutet, dass das Experiment eine hohe Präzision aufweist - das heißt: Die beobachtete Effektgröße ist weniger häufig / wahrscheinlich aufgrund von Zufällen / Schwankungen (und wahrscheinlich aufgrund eines echten Effekts). .

    XN(0,1)P(X=0)=0

  • αα ).

    Sie sollten beachten, dass ein hoher p-Wert ( nicht unbedingt) ein Beweis / eine Unterstützung für die Nullhypothese ist. Der hohe p-Wert bedeutet nur, dass die Beobachtung für eine gegebene Nullhypothese nicht bemerkenswert / extrem ist, aber dies könnte genauso gut für die alternative Hypothese der Fall sein (dh das Ergebnis stimmt mit beiden Hypothesen überein, ja / nein Wirkung). Dies tritt normalerweise auf, wenn die Daten nicht viele Informationen enthalten (z. B. starkes Rauschen oder kleine Stichprobe).

p0.5pU(0,1)


1

Main point in my question was that when can we really say that H0 is true, i.e. μ1=μ2 in this case?

No, because "absence of evidence is not evidence of absence." Probability can be thought as an extension of logic, with added uncertainties, so imagine for a moment that instead of real numbers on unit interval, the hypothesis test would return only the binary values: 0 (false) or 1 (true). In such case, the basic rules of logic apply, as in the following example:

  • If it rained outside, then the ground being wet is likely.
  • The ground is wet.
  • Therefore, it rained outside.

The ground could very well be wet because it rained. Or it could be due to a sprinkler, someone cleaning their gutters, a water main broke, etc. More extreme examples can be found in the link above.

As about confidence interval, if your sample is large, and μ1μ20, then the confidence interval for the difference would become extremely narrow, but non-zero. As noticed by others, you could observe things like exact ones and zeros, but rather because of the floating-point precision limitations.

Even if you observed p=1 and the ±0 confidence interval, you still need to keep in mind that the test gives you only the approximate answer. When doing hypothesis testing, we not only make the assumption that H0 is true, but also make a number of other assumptions, like that the samples are independent and come from normal distribution, what is never the case for real-world data. The test gives you an approximate answer, to ill-posed question, so it cannot "prove" the hypothesis, it can just say "under those unreasonable assumptions, this would be unlikely".


0

Nothing stops you from using standard t- or Gauss-formulae for computing the confidence interval - all informations needed are given in your question. p=1 doesn't mean that there's anything wrong with that. Note that p=1 does not mean that you can be particularly sure that the H0 is true. Random variation is still present and if u0=u1 can happen under the H0, it can also happen if the true value of u0 is slightly different from the true u1, so there will be more in the confidence interval than just equality.


I did some editing, I hope it's more defined now.
arkiaamu

OK, I removed references to what was ill-defined in the earlier version. The question has in the meantime been answered properly by others.
Lewian

Please use MathJax notation
David

0

A very common statement is that H0 is never true, it's just a matter of sample size.

Not among people who know what they're talking about, and are speaking precisely. Traditional hypothesis testing never concludes that the null is true, but whether the null is true or not is separate from whether the null is concluded to be true.

This would mean that p-value is 1.00000

For a two-tailed test, yes.

indicating that there is absolutely no discrepancy from H0.

H0 is a statement about the distribution. The mode of the distribution given in H0 is 0, so there's no discrepancy between the observation and the mode of the distribution, but it's not quite correct to say there's no discrepancy from H0. No individual result would be a discrepancy, because any value could come from the distribution. Each p-value is equally likely. Getting a p-value of exactly .01 is just as likely as getting a p-value of exactly 1 (apart from discretization issues). If you had a bunch of independent samples, and their distribution didn't match what H0 predicts, that would much more legitimately be called a "discrepancy" than would merely seeing a single sample whose mean doesn't match the mode.

What would be the limits of 95% confidence interval for the mean difference in this case?

To first approximation, the limits of a 95% confidence interval are about twice the applicable standard deviation. There is no discontinuity at zero. If you find a function f(ϵ) that finds the 95% confidence interval for a difference in means of ϵ, you can simply take limϵ0f(ϵ) to find the confidence interval for a mean difference of zero.

Main point in my question was that when can we really say that H0 is true, i.e. μ1=μ2 in this case?

We can say whatever we want. However, saying that a test shows the null to be true is not consistent with traditional hypothesis testing, regardless of the results. And doing so is not well-founded from an evidenciary standpoint. The alternative hypothesis, that the means are not the same, encompasses all possible difference in means. The alternative hypothesis is "The difference in means is 1, or 2, or 3, or .5, or .1, ..." We can posit an arbitrarily small difference in means, and that will be consistent with the alternative hypothesis. And with an arbitrarily small difference, the probability given that mean is arbitrarily close to the probability given the null. Also, the alternative hypothesis encompasses not only the possibility that the parameters of the distributions, such as the mean, are different, but that there's an entirely different distribution. For instance, the alternative hypothesis encompasses "The two samples will always have a difference in means that this is either exactly 1 or exactly 0, with probability .5 for each". The results are more consistent with that then they are with the null.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.