Modellauswahl: Logistische Regression

13

Angenommen, wir haben Kovariaten und eine binäre Ergebnisvariable $n$ $x_1, \dots, x_n$ $y$ . Einige dieser Kovariaten sind kategorisch mit mehreren Ebenen. Andere sind kontinuierlich. Wie würden Sie das "beste" Modell auswählen? Mit anderen Worten, wie wählen Sie die Kovariaten aus, die in das Modell aufgenommen werden sollen?

Würden Sie mit jeder der Kovariaten einzeln unter Verwendung einer einfachen logistischen Regression modellieren und diejenigen mit einer signifikanten Assoziation auswählen? $y$

logistic regression-strategies

— Thomas
quelle

1

Zusätzlich zu meiner Antwort unten (oder anderen, falls sie auftauchen), enthält das Folgende einige gute Diskussionen zur Modellauswahl (obwohl nicht auf logistische Regression per se konzentriert). Stats.stackexchange.com/questions/18214/…

— gung - Reinstate Monica

2

Ich zitiere @jthetzel aus einem kürzlichen Kommentar auf dieser Site: "Eine gute Frage, aber eine, die die meisten hier in semesterlangen Universitätskursen studiert haben, und einige haben Karriere als Student verbracht." Es ist so, als würde man sich mit einer Person hinsetzen und sagen: "Kannst du mir heute Nachmittag Swahili beibringen?" Nicht, dass Gung in seiner Antwort keine guten Punkte macht. Es ist nur ein riesiges Gebiet.

— Rolando2

2

Dies ist auch ein Thread, der, obwohl für eine ganz bestimmte Frage, generell einige Ratschläge von mir enthält: stats.stackexchange.com/questions/17068/… Ich werde auch meine Gedanken unten wiedergeben.

— Fomite

Okay, ich denke, ich werde nur AIC als Kriterium verwenden. Das Vollmodell hat den niedrigsten AIC. Auch die AICs unterscheiden sich ziemlich voneinander.

— Thomas

10

Dies ist wahrscheinlich keine gute Sache. Das Betrachten aller einzelnen Kovariaten und das anschließende Erstellen eines Modells mit den signifikanten entspricht logischerweise einem automatischen Suchvorgang. Obwohl dieser Ansatz intuitiv ist, sind Schlussfolgerungen aus dieser Prozedur nicht gültig (z. B. unterscheiden sich die wahren p-Werte von denen, die von der Software gemeldet werden). Das Problem wird umso größer, je größer der anfängliche Satz von Kovariaten ist. Wenn Sie dies trotzdem tun (und das tun leider viele Leute), können Sie das resultierende Modell nicht ernst nehmen. Stattdessen müssen Sie eine völlig neue Studie durchführen, eine unabhängige Stichprobe erstellen und das vorherige Modell anpassen, um es zu testen. Dies erfordert jedoch eine Menge Ressourcen und darüber hinaus, da der Prozess fehlerhaft ist und das vorherige Modell wahrscheinlich ein schlechtes ist.eine Menge Ressourcen verschwenden .

A I C = - 2 \times \ln (likelihood) + 2 k

$AIC = -2\times\ln(\text{likelihood}) + 2k$

$k$

Ich füge hier die vollständige Formel für den AIC ein, da unterschiedliche Software unterschiedliche Informationen ausgibt. Möglicherweise müssen Sie es nur anhand der Wahrscheinlichkeit berechnen, oder Sie erhalten den endgültigen AIC oder irgendetwas dazwischen.

— gung - Wiedereinsetzung von Monica
quelle

6

Ich mag AIC, aber achte darauf, dass die Berechnung von AIC auf mehr als 2 vordefinierten Modellen zu einem Multiplizitätsproblem führt.

— Frank Harrell

1

@FrankHarrell schöner Tipp!

— gung - Wiedereinsetzung von Monica

9

Es gibt viele Möglichkeiten zu wählen, welche Variablen in einem Regressionsmodell verwendet werden, einige anständige, andere schlechte und andere schreckliche. Man kann einfach in den Veröffentlichungen von Sander Greenland stöbern, von denen viele die variable Auswahl betreffen.

Generell habe ich jedoch ein paar gemeinsame "Regeln":

Automatisierte Algorithmen, wie sie in Softwarepaketen enthalten sind, sind wahrscheinlich eine schlechte Idee.
Die Verwendung von Modelldiagnosetechniken, wie sie Gung vorschlägt, ist ein gutes Mittel zur Bewertung Ihrer Variablenauswahl
Sie sollten auch eine Kombination aus Fachwissen, Literaturrecherchen, gerichteten azyklischen Diagrammen usw. verwenden, um Ihre variablen Auswahlmöglichkeiten zu informieren.

— Fomite
quelle

3

Gut formuliert, insbesondere die Punkte 1 und 3. Modelldiagnosetechniken können dazu führen, dass Typ-I-Fehler nicht erhalten bleiben.

— Frank Harrell

3

Nun, setzen Sie @Epigrad. Ich würde jedoch einen Punkt hinzufügen. Automatisierte Algorithmen werden sehr attraktiv, wenn Ihr Problem groß wird. In einigen Fällen sind sie möglicherweise die einzig mögliche Methode zur Modellauswahl. Die Menschen analysieren jetzt riesige Datenmengen mit Tausenden potenzieller Variablen und Millionen von Beobachtungen. Wie ist die Fachkompetenz in 1000-dimensionaler Intuition? Und was Sie feststellen werden, ist, dass selbst wenn Sie es manuell tun (dh mit einem Analysten), diese wahrscheinlich einige Verknüpfungsregeln für die Auswahl von Variablen erstellen. Der schwierige Teil ist es wirklich, diese Entscheidungen zu kodieren.

— Wahrscheinlichkeitsrechnung

1

@ probabilityislogic Dem würde ich zustimmen. Ehrlich gesagt denke ich, dass traditionelle Techniken für sehr große Datenmengen schlecht geeignet sind, aber die Tendenz, auf zugänglichere Techniken zurückzugreifen, alarmiert mich. Wenn ein automatisierter Algorithmus einen Datensatz mit 10 Variablen verzerren kann, gibt es keinen Grund, warum er einen Datensatz nicht mit 10.000 verzerren kann. Der derzeitige Schwerpunkt auf der Erfassung von Big Data über seine Analyse in einigen Teilen macht mich etwas skittisch.

— Fomite

2

@probabilityislogic In einer zutiefst ironischen Wendung arbeite ich jetzt mit einem Datensatz mit weit über 10s von 1000s potenzieller Variablen>. <

— Fomite

2

Wie würden Sie das "beste" Modell auswählen?

Es sind nicht genügend Informationen verfügbar, um diese Frage zu beantworten. wenn Sie ursächliche Auswirkungen auf y haben wollen Sie benötigen Regressionen zu implementieren , die widerspiegeln , was über die Verwechselung bekannt ist. Wenn Sie Vorhersagen treffen möchten, ist AIC ein vernünftiger Ansatz.

Diese Ansätze sind nicht die gleichen; Der Kontext bestimmt, welche der (vielen) Arten der Variablenauswahl mehr oder weniger geeignet ist.

— Gast
quelle