Wahl zwischen logistischer Regression und Mann Whitney / t-Tests


8

Ich habe eine dichotome Variable , die keinen a priori bestimmten Anteil von Nullen und Einsen hat, und eine kontinuierliche Variable .Ab

In Szenario 1 entscheide ich mich, als unabhängige Variable und als abhängige Variable bestimmen . Ich teste dann gegen mit Tests wie Mann Whitney (verteilungsfrei), t-Test (Normalverteilung) usw.AXbyXy

In Szenario 2 entscheide ich mich, als abhängige Variable und als unabhängige Variable . Ich teste dann gegen Verwendung der logistischen Regression.AYbxxY

  1. Welches Modell soll ich wählen, wenn ich die Richtung der Beziehung zwischen und nicht kenne , dh ich kann mich nicht entscheiden, ob die unabhängige Variable oder die unabhängige Variable ist?AbAb

  2. Wenn ich mir nicht sicher bin, welche abhängigen oder unabhängigen Variablen es sind, wäre es für mich ungültig, den t-Test / Mann-Whitney zunächst als eine Art univariate Analyse zu verwenden und dann die logistische Regression als multivariate Analyse zu verwenden?

Antworten:


6

Die Antwort auf Frage 1 hängt von Ihrer Forschungsfrage ab und davon, wer das Publikum für das Ergebnis ist.

Wenn Ihre Forschungsfrage darauf hinweist, dass Sie anhand des Profils von A über Unterschiede in b sprechen, hilft dies natürlich dabei, Ihre Zusammenfassung zu gestalten. In einer epidemiologischen Studie wäre es auch dann sinnvoll, diese Klassifizierung als unabhängige Variable [Exposition] und die kontinuierliche Variable als abhängige Variable [Ergebnis] zu verwenden, selbst wenn Sie keine Stichproben basierend auf A (unabhängige Variable als exponierter / nicht exponierter Status) erstellen ]. Es hört sich so an, als ob Sie die Antwort darauf bereits kennen.

Sie sollten auch überlegen, wie Sie das Ergebnis interpretieren können, indem Sie die Ergebnisse anderen präsentieren (und selbst interpretieren). Ein Modell mit kontinuierlicher Variable als abhängiger Variable [Ergebnis] hätte eine mittlere Differenz (oder eine ähnliche) als eine Zusammenfassung; Ein dichotomisches Variable-als-Ergebnis-Modell hätte ein Quotenverhältnis (Verhältnis der erhöhten Quoten pro Einheit der kontinuierlichen Variablen, das skaliert werden könnte, um z. B. eine relative Zunahme pro fünf Kilo zusätzliches Gewicht für die Wahrscheinlichkeit von Typ-II-Diabetes zu ergeben.)

Meine Erfahrung aus der Beratung von Einstellungen und deren Erklärung für Personen ist, dass Ersteres (Unterschied in den Mitteln) anderen Personen im Allgemeinen leichter zu erklären ist als Letzteres (Quotenverhältnis pro Einheitsdifferenz einer kontinuierlichen unabhängigen Variablen).

Wenn Sie für Frage 2 ein multivariables Modell ausführen möchten, in dem Sie Kovariaten steuern, ist es hilfreich, zu Beginn abhängige / unabhängige Variablen auszuwählen. Es ist wahrscheinlich am besten, bei der gleichen Methode von der univariaten zur multivariablen Analyse zu bleiben, anstatt zwischen den beiden Ansätzen zu wechseln, nur um die Erklärung zu vereinfachen.

Schlussbemerkung zu diesem letzteren Punkt: Aus Sicht des Hypothesentests sollte eine logistische Regression mit einer kontinuierlichen unabhängigen Variablen [Exposition] und einer [einzelnen] dichotomen abhängigen Variablen den gleichen p-Wert wie ein ungepaarter t-Test zurückgeben, wobei eine ungleiche Varianz mit den Variablen angenommen wird umgekehrt (aus dem Gedächtnis - ich bin mir nicht ganz sicher, ob dies immer wahr ist.)


2
Bei der Beantwortung dieser Frage ( stats.stackexchange.com/questions/48381/… ) fand ich das folgende Papier, in dem die Leistungsäquivalenz zwischen binärer logistischer Regression und einem ungepaarten t-Test formell erörtert wird. Ncbi.nlm.nih.gov/pubmed/9699234
James Stanley

6

Der Wilcoxon-Mann-Whitney-Test ist ein Sonderfall des ordinalen logistischen Modells mit proportionalen Gewinnchancen. Man könnte also sagen, dass das Modell nicht umgedreht werden muss, um die logistische Regression zu verwenden. Das grundlegende Problem bei der Auswahl des Modells besteht jedoch darin, zu bestimmen, für welche Variablen eine Anpassung sinnvoll ist.


2
Ihre Idee ist sehr interessant und scharfsinnig, @Frank, aber nicht detailliert. Bitte erläutern Sie es für mich: Was ist dieser "Sonderfall", wenn die ordinale logistische Regression einer quantitativen Variablen auf eine dichotome Variable genau dem Mann-Whitney-Test entspricht?
ttnphns

1
Ein proportionales Quotenmodell mit nur einer Reihe von Dummy-Variablen als Prädiktoren, die k Gruppen darstellen, entspricht einer Kruskal-Wallis-Rang-ANOVA mit k Gruppen (k = 2 -> Wilcoxon). Der Zähler der Punktestatistik ist die Rang-ANOVA-Statistik (Wilcoxon).
Frank Harrell

1
Bitte, @Frank, können Sie Zeit finden, um die Gleichwertigkeit einiger kleiner Daten direkt in Ihrer Antwort zu demonstrieren (zu beweisen)? Es wäre interessant und wichtig. Eine Referenz, falls vorhanden, könnte auch nett sein. Danke vielmals.
ttnphns

1
Siehe Whitehead, John: Berechnungen der Stichprobengröße für geordnete kategoriale Daten. Statistics in Medicine 12 : 2257 & ndash; 2271; 1993. Siehe Brief an den Herausgeber SM 15: 1065-6 für binäre Fälle, siehe Errata in SM 13: 871 1994
Frank Harrell

2
Könnten Sie Ihren letzten Satz in der Antwort erweitern? Vielen Dank.
jetistat001

1

Das ist ein Versuch einer Teilantwort:

YXY=1Y=0

Auf der anderen Seite scheint Mann Whitney keine Probleme damit zu haben, dh es gilt, ob es sich um eine Fall-Kontroll-Studie handelt oder nicht.


1
Y.Y.

Nun, die logistische Regression wurde speziell für die Arbeit mit Fall-Kontroll-Studien entwickelt, siehe stats.stackexchange.com/questions/67903/…
kjetil b halvorsen

0

Wie bei vielen Fragen hängt die Antwort von Ihrem zugrunde liegenden Zweck bei der Durchführung der Analyse ab. Wenn Sie nicht nur zeigen möchten, dass eine signifikante Assoziation zwischen einer dichotomen Variablen A und einer kontinuierlichen Variablen b besteht, sondern auch die erwartete Wahrscheinlichkeit des in Variable A aufgezeichneten Ereignisses berechnen können, möchten Sie die Logistik verwenden Regression, da dieser Ansatz Ihnen eine Regressionsgleichung liefert. Darüber hinaus kann die logistische Regression im bivariaten Fall von A und b auf den multivariaten Fall der Vorhersage von A aus b und zahlreichen anderen unabhängigen Variablen ausgedehnt werden, um Kovariaten zu kontrollieren, Mediationsmodelle zu testen, Interaktionen zu untersuchen und alle andere gute Dinge können wir mit multipler Regression tun. Trotzdem Sie sollten wahrscheinlich die Verknüpfungsfunktion in Betracht ziehen, die die dichotome Variable A mit der kontinuierlichen Variablen B verknüpft. Bei der logistischen Regression wurde eine logit-Verknüpfung verwendet, die besser geeignet ist, wenn die Wahrscheinlichkeit des Ergebnisses sehr hoch oder niedrig ist, während eine probit-Verknüpfung geeigneter sein kann, wenn Die Wahrscheinlichkeit des Ereignisses liegt näher bei .5 Die Auswahl der für Ihre Daten geeigneten Verknüpfungsfunktion ist wichtig für die Erstellung eines guten Regressionsmodells. Weitere Informationen zu Linkfunktionen finden Sie unter folgenden Links: 5 Die Auswahl der für Ihre Daten geeigneten Verknüpfungsfunktion ist wichtig, um ein gutes Regressionsmodell zu erstellen. Weitere Informationen zu Linkfunktionen finden Sie unter folgenden Links: 5 Die Auswahl der für Ihre Daten geeigneten Verknüpfungsfunktion ist wichtig, um ein gutes Regressionsmodell zu erstellen. Weitere Informationen zu Linkfunktionen finden Sie unter folgenden Links:

http://www.stat.ufl.edu/CourseINFO/STA6167/logistregSFLM.pdf

http://www.norusis.com/pdf/ASPC_v13.pdf


2
Ich denke nicht, dass die Wahl zwischen der Verwendung des Logit & Probit-Links viel damit zu tun hat, ob die Wahrscheinlichkeiten nahe bei 0,5 liegen. Ich habe hier über die Wahl des Links geschrieben: Unterschied zwischen Logit- und Probit-Modellen . Ich habe gehört, dass Leute vorschlagen, cloglogwann die Antwortkategorien unausgewogen sind, aber es gibt andere Optionen.
Gung - Reinstate Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.