Verallgemeinerte lineare gemischte Modelle: Modellauswahl


10

Diese Frage / dieses Thema kam in einer Diskussion mit einem Kollegen auf und ich suchte nach einigen Meinungen dazu:

Ich modelliere einige Daten mithilfe einer logistischen Regression mit zufälligen Effekten, genauer gesagt einer logistischen Regression mit zufälligen Abschnitten. Für die festen Effekte habe ich 9 Variablen, die von Interesse sind und in Betracht kommen. Ich möchte eine Art Modellauswahl treffen, um die signifikanten Variablen zu finden und das „beste“ Modell zu erhalten (nur Haupteffekte).

Meine erste Idee war, den AIC zu verwenden, um verschiedene Modelle zu vergleichen, aber mit 9 Variablen war ich nicht zu aufregend, um 2 ^ 9 = 512 verschiedene Modelle zu vergleichen (Schlüsselwort: Datenbaggerung).

Ich habe dies mit einem Kollegen besprochen und er hat mir erzählt, dass er sich daran erinnert hat, über die schrittweise (oder vorwärtsgerichtete) Modellauswahl mit GLMMs gelesen zu haben. Anstatt jedoch einen p-Wert zu verwenden (z. B. basierend auf einem Likelihood-Ratio-Test für GLMMs), sollte der AIC als Ein- / Ausstiegskriterium verwendet werden.

Ich fand diese Idee sehr interessant, fand aber keine Referenzen, die dies weiter diskutierten, und mein Kollege erinnerte sich nicht daran, wo er sie gelesen hatte. Viele Bücher schlagen vor, den AIC zum Vergleichen von Modellen zu verwenden, aber ich fand keine Diskussion darüber, dies zusammen mit einem schrittweisen oder vorwärts gerichteten Modellauswahlverfahren zu verwenden.

Ich habe also grundsätzlich zwei Fragen:

  1. Ist etwas falsch daran, den AIC in einem schrittweisen Modellauswahlverfahren als Ein- / Ausstiegskriterium zu verwenden? Wenn ja, welche Alternative wäre das?

  2. Haben Sie einige Referenzen, die das oben beschriebene Verfahren diskutieren (auch als Referenz für einen Abschlussbericht?

Beste,

Emilia


3
Die schrittweise Modellauswahl ist so viel Datenbaggerung wie die vollständige Teilmengenauswahl (es wird tatsächlich versucht, in viel kürzerer Zeit ungefähr dieselbe Lösung zu finden). AIC-basierte Auswahl ist auch Datenbaggerung.
Michael M

Antworten:


7

Die schrittweise Auswahl ist in Mehrebenenmodellen aus den gleichen Gründen falsch wie in der "regulären" Regression: Die p-Werte sind zu niedrig, die Standardfehler zu klein, die Parameterschätzungen von 0 weg voreingenommen usw. Am wichtigsten ist, dass Sie dies ablehnen die Gelegenheit zum Nachdenken.

9 IVs sind nicht so viele. Warum hast du diese 9 gewählt? Sicher hatten Sie einen Grund.

Eine erste Sache, die Sie tun müssen, ist, sich viele Grundstücke anzusehen. Welche genauen Daten vorliegen, hängt ein wenig davon ab, ob Ihre Daten in Längsrichtung (in diesem Fall sind Diagramme mit der Zeit auf der x-Achse häufig nützlich) oder gruppiert sind. Aber schauen Sie sich sicherlich die Beziehungen zwischen den 9 IVs und Ihrem DV an (parallele Box-Plots sind eine einfache Möglichkeit).

Ideal wäre es, einige Modelle auf der Grundlage des materiellen Sinns zu erstellen und sie mit AIC, BIC oder einer anderen Maßnahme zu vergleichen. Aber wundern Sie sich nicht, wenn kein bestimmtes Modell so eindeutig am besten zur Geltung kommt. Sie sagen nicht, in welchem ​​Bereich Sie arbeiten, aber in vielen (den meisten?) Bereichen ist die Natur kompliziert. Mehrere Modelle passen möglicherweise ungefähr gleich gut und ein anderes Modell passt möglicherweise besser zu einem anderen Datensatz (selbst wenn beide Zufallsstichproben aus derselben Population sind).

Als Referenz gibt es viele gute Bücher über nichtlineare gemischte Modelle. Welches für Sie am besten geeignet ist, hängt davon ab, a) in welchem ​​Bereich Sie sich befinden b) in welcher Art die Daten vorliegen c) welche Software Sie verwenden.

Auf Ihren Kommentar antworten

  1. Wenn alle 9 Variablen wissenschaftlich wichtig sind, würde ich zumindest in Betracht ziehen, sie alle einzubeziehen. Wenn eine Variable, die jeder für wichtig hält, einen kleinen Effekt hat, ist das interessant.

  2. Zeichnen Sie alle Ihre Variablen im Laufe der Zeit und auf verschiedene Weise.

  3. Für allgemeine Fragen zu longitudinalen Mehrebenenmodellen mag ich Hedeker und Gibbons ; Für nichtlineare Längsmodelle in SAS mag ich Molenberghs und Verbeke . Die SAS-Dokumentation selbst (für PROC GLIMMIX) enthält ebenfalls Anleitungen.


In dieser Studie werden die Probanden im Laufe der Zeit verschiedenen Kombinationen von Medikamenten und Übungen ausgesetzt, und das interessierende Ergebnis ist das Vorhandensein einer bestimmten Atemwegserkrankung (ja / nein). Die Patienten werden über 2 Monate alle 2 Wochen wiederholt gemessen. In Bezug auf Software verwende ich SAS und R. Die 9 IVs wurden vom Prüfer aufgrund ihrer wissenschaftlichen Bedeutung ausgewählt.
Emilia

Die Überprüfung von Daten ist genauso schlecht, wenn nicht sogar schlechter als die Verwendung einer algorithmischen Modellauswahl. Der Grund dafür ist, dass die algorithmische Modellauswahl gut verstanden wird und möglicherweise angepasst werden kann; Das Betrachten der Daten und das Anwenden subjektiver Beurteilungen ist ein Prozess, der nicht repliziert oder angepasst werden kann. In jedem Fall würde ich die Modellauswahl vermeiden, da die Modellauswahl die Inferenz ungültig macht. Da es hier nur 9 Kovariaten gibt, denke ich, dass der beste Rat darin besteht, mit dem vollständigen Modell oder mit einem Modell zu arbeiten, das nur auf der Grundlage der Substanz ausgewählt wurde.
user3903581

3

Die Modellauswahl kann besser mit Schrumpfungsmethoden wie LASSO durchgeführt werden. Schrittweise Methoden sind zu liberal. Eine Begründung finden Sie auf Tibshiranis Webseite. Wenn Sie R verwenden, gibt es ein Paket namens, glmmLassodas die Modellauswahl in verallgemeinerten linearen Mischeffektmodellen unter Verwendung der LASSO-Schrumpfungsmethode ermöglicht.


1

Eine gute Referenz für die AIC-basierte gemischte Modellauswahl in R (auch gut für Dummies) wäre Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R,

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.