Was ist der Unterschied zwischen einem Fisher's Exact Test und einer logistischen Regression für Tabellen?

Bei einer Tabelle gibt es zwei Möglichkeiten, Rückschlüsse auf die Tabelle zu ziehen: Fisher's Exact Test und auch eine logistische Regression. $2 \times 2$

Mir wurde gesagt, dass wir mit einem Fisher's Exact Test nur an der Anwesenheit von Assoziationen interessiert sind. Aber dass wir bei einer logistischen Regression an der Größe der Assoziation interessiert sind.

Ich verstehe jedoch nicht warum. In einem exakten Fisher-Test, der in R durchgeführt wurde, wird beispielsweise das Odds Ratio mit einem Konfidenzintervall zurückgegeben, während bei der logistischen Regression der Achsenabschnitt und die Steigung zurückgegeben werden, die beide den Log-Quoten und den Log-Quoten entsprechen Verhältnis.

Meine Frage ist , wo gibt uns die logistische Regression das Ausmaß der Assoziation? Ich gehe davon aus, dass es sich um den Koeffizienten , aber das ist nur das logarithmische Quotenverhältnis, das auch der genaue Test von Fisher ergibt . Was sind die Unterschiede? $\beta_1$

— user321627
quelle

Ich bin mir nicht sicher, was die Person, mit der Sie sich befasst haben, mit "Logistische Regression gibt uns das Ausmaß der Assoziation" gemeint hat, da, wie Sie sagen, der genaue Test des Fischers etwas ganz Ähnliches bewirkt. Trotzdem gibt es einige Unterschiede, an die ich denken kann.

1. Die Odds Ratios (OR) können unterschiedlich sein

Der gemeldete OP muss nicht derselbe sein. Zumindest gilt dies für die R-Funktionen Fisher.test () und Exact2x2 () gegenüber der logistischen Regression über die Funktion glm (). Hier ein Beispiel:

# generating data
set.seed(1)
n <- 200
x <- rbinom(n, 1, .5)
y <- rbinom(n, 1, .4)
df <- data.frame(x, y)

# OR from logistic regression
exp(coef(glm(y ~ x,family=binomial(link='logit'),data= df)))[2]
1.423077

# OR from fisher's exact test
tab <- table(x, y)
fisher.test(tab)$estimate
1.420543 # the methods "minlike", "central" and "blaker" in the exact2x2 function result in the same OR

# calculating OR by hand
(tab[1,1]/ tab[2,1])/ (tab[1,2]/ tab[2,2])
1.423077

Der OP des genauen Fischertests unterscheidet sich von dem von Hand berechneten oder in logistischer Regression angegebenen Wert, da er anhand der bedingten Maximum-Likelihood-Schätzung und nicht anhand des bedingungslosen MLE (Stichproben-OR) berechnet wird . Es kann Situationen geben, in denen sich die ODER-Werte stärker unterscheiden als in meinem Beispiel. Auch hier unterscheidet sich der OP für die genannten Funktionen, es kann jedoch auch andere Varianten der Tests geben, wenn diese gleich sind.

2. p-Werte unterscheiden sich

Natürlich unterscheiden sich die p-Werte, da sie im Falle einer logistischen Regression mit der Wald-Statistik und dem az-Wert bestimmt werden, während es verschiedene Arten von exakten Fischertests gibt , die sich untereinander sogar in den p-Werten unterscheiden (letzter Link öffnet pdf). Hier finden Sie die zuvor verwendeten Daten:

# p value from logistic regression
summary(glm(y ~ x,family=binomial(link='logit'),data= df))$coefficients["x", "Pr(>|z|)"]
0.2457947

# p value from fisher's exact test
library(exact2x2) # package covers different exact fisher's tests, see here https://cran.r-project.org/web/packages/exact2x2/index.html

exact2x2(tab,tsmethod="central")$p.value
0.3116818
exact2x2(tab,tsmethod="minlike")$p.value
0.290994 # which is same as fisher.test(tab)$p.value and exact2x2(tab,tsmethod="blaker")$p.value

Hier würde man in allen Fällen zu dem Schluss kommen, dass es keinen signifikanten Effekt gibt. Wie Sie sehen, sind die Unterschiede jedoch nicht trivial (.246 für die logistische Regression gegenüber .291 oder sogar .312 für den genauen Fischertest). Je nachdem, ob Sie eine logistische Regression oder einen genauen Fischertest verwenden, können Sie zu einer anderen Schlussfolgerung gelangen, ob ein signifikanter Effekt vorliegt oder nicht.

3. Vorhersage machen

Um eine Analogie zu ziehen: Die Pearson-Korrelation und die lineare Regression sind in bivariaten Fällen ziemlich ähnlich, und der standardisierte Regressionskoeffizient ist sogar der gleiche wie die Pearson-Korrelation r. Sie können jedoch keine Vorhersagen mit einer Korrelation treffen, da ein Abschnitt fehlt. Auch wenn die Quotenverhältnisse der logistischen Regression und des genauen Tests des Fischers gleich wären (was nicht der Fall ist, wie in Punkt 1 erläutert), könnten Sie mit den Ergebnissen des genauen Tests des Fischers keine Vorhersagen treffen. Andererseits liefert Ihnen die logistische Regression den Achsenabschnitt und die Koeffizienten, die für Vorhersagen erforderlich sind.

4. Leistung

Die zuvor genannten Unterschiede können zu der Annahme führen, dass es Unterschiede in der Leistung beider Tests hinsichtlich Leistung und Typ-I-Fehler geben sollte. Es gibt einige Quellen, die besagen, dass der genaue Test des Fischers zu konservativ ist. Auf der anderen Seite sollte man bedenken, dass die standardmäßigen logistischen Regressionsanalysen asymptotisch sind. Mit wenigen Beobachtungen werden Sie wahrscheinlich den genauen Test des Fischers bevorzugen .

Zusammenfassend lässt sich sagen , dass beide Tests zwar für dieselben Daten verwendet werden können, es jedoch einige Unterschiede gibt, die zu unterschiedlichen Ergebnissen und damit zu unterschiedlichen Schlussfolgerungen führen können. Es hängt also von der Situation ab, welchen der beiden Tests Sie verwenden möchten - im Falle einer Vorhersage wäre dies die logistische Regression, bei kleinen Stichprobengrößen der genaue Test des Fischers und so weiter. Wahrscheinlich gibt es noch mehr Unterschiede, die ich ausgelassen habe, aber vielleicht kann jemand sie bearbeiten und hinzufügen.