Fisher's Exact Test und hypergeometrische Verteilung

Ich wollte den genauen Test des Fischers besser verstehen, deshalb habe ich das folgende Spielzeugbeispiel entwickelt, bei dem f und m männlich und weiblich und n und y dem "Sodakonsum" wie folgt entsprechen:

> soda_gender

    f m
  n 0 5
  y 5 0

Dies ist natürlich eine drastische Vereinfachung, aber ich wollte nicht, dass der Kontext im Weg steht. Hier habe ich nur angenommen, dass Männer kein Soda trinken und Frauen Soda trinken, und wollte sehen, ob die statistischen Verfahren zu dem gleichen Ergebnis kommen.

Wenn ich den genauen Fischertest in R durchführe, erhalte ich die folgenden Ergebnisse:

> fisher.test(soda_gender)
Fisher's Exact Test for Count Data

data:  soda_gender
p-value = 0.007937
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.0000000 0.4353226
sample estimates:
odds ratio 
         0

Da der p-Wert 0,007937 beträgt, würden wir hier schließen, dass Geschlecht und Sodakonsum miteinander verbunden sind.

Ich weiß, dass der fischergenaue Test mit der hypergeomterischen Verteilung zusammenhängt. Also wollte ich damit ähnliche Ergebnisse erzielen. Mit anderen Worten, Sie können diese Probleme wie folgt betrachten: Es gibt 10 Bälle, wobei 5 als "männlich" und 5 als "weiblich" gekennzeichnet sind, und Sie ziehen 5 Bälle zufällig ohne Ersatz und Sie sehen 0 männliche Bälle . Was ist die Chance dieser Beobachtung? Um diese Frage zu beantworten, habe ich den folgenden Befehl verwendet:

> phyper(q=0,m=5,n=5,k=5,lower.tail=TRUE)
[1] 0.003968254

Meine Fragen sind: 1) Wie kommt es, dass die beiden Ergebnisse unterschiedlich sind? 2) Ist meine obige Argumentation falsch oder nicht streng?

fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

— Alby
quelle

Der genaue Test von Fisher funktioniert durch Konditionieren an den Tischrändern (in diesem Fall 5 Männer und Frauen und 5 Sodatrinker und Nichttrinker). Unter den Annahmen der Nullhypothese sind die Zellwahrscheinlichkeiten für die Beobachtung eines männlichen Sodatrinkers, eines männlichen Nicht-Sodatrinkers, eines weiblichen Sodatrinkers oder eines weiblichen Nicht-Sodatrinkers aufgrund der Margensummen alle gleich wahrscheinlich (0,25).

Die bestimmte Tabelle, die Sie für den FET verwendet haben, hat außer ihrer Umkehrung keine Tabelle, 5 weibliche Nicht-Sodatrinker und 5 männliche Sodatrinker, was unter der Nullhypothese "mindestens genauso unwahrscheinlich" ist. Sie werden also feststellen, dass Sie durch Verdoppeln der Wahrscheinlichkeit, die Sie in Ihrer hypergeometrischen Dichte erhalten haben, den FET-p-Wert erhalten.

— AdamO
quelle

Mengs Notizen zu Phyper und Fisher.test (die dasselbe tun, aber eine ganz andere Oberfläche haben) sind sehr hilfreich: mengnote.blogspot.qa/2012/12/…

— Aditya