Diese Antwort basiert nicht auf meinem Wissen, sondern zitiert, was Bolker et al. (2009) schrieb in einem einflussreichen Artikel in der Zeitschrift Trends in Ecology and Evolution . Da der Artikel nicht offen zugänglich ist (obwohl nach ihm gesucht wird) Google Scholar als erfolgreich erweisen könnte), dachte ich, ich zitiere wichtige Passagen, die hilfreich sein könnten, um Teile der Fragen zu beantworten Es stellt die besten komprimierten Informationen zu GLMMs (einschließlich Diagnose) in einer sehr einfachen und leicht verständlichen Schreibweise dar. Wenn diese Antwort aus irgendeinem Grund nicht geeignet ist, werde ich sie einfach löschen Nützliche Informationen zu diagnostischen Fragen sind in hervorgehobenfett .
Seite 127:
Forscher, die mit nicht normalen Daten konfrontiert sind, versuchen häufig, Abkürzungen wie das Transformieren von Daten, um Normalität und Homogenität der Varianz zu erreichen, indem sie nichtparametrische Tests verwenden oder sich für ausgewogene Designs auf die Robustheit der klassischen ANOVA gegen Nichtnormalität verlassen [15]. Sie können zufällige Effekte ganz ignorieren (und so Pseudo-Replikation begehen) oder sie als feste Faktoren behandeln [16]. Solche Verknüpfungen können jedoch fehlschlagen (z. B. können Zähldaten mit vielen Nullwerten durch Transformation nicht normalisiert werden). Selbst wenn sie erfolgreich sind, können sie statistische Annahmen verletzen (selbst nichtparametrische Tests machen Annahmen, z. B. zur Homogenität der Varianz zwischen Gruppen) oder den Umfang der Inferenz einschränken (Schätzungen fester Effekte können nicht auf neue Gruppen extrapoliert werden). Anstatt ihre Daten in klassische statistische Rahmenwerke einzubinden, Forscher sollten statistische Ansätze verwenden, die ihren Daten entsprechen. Verallgemeinerte lineare Mischmodelle (GLMMs) kombinieren die Eigenschaften von zwei statistischen Grundgerüsten, die in der Ökologie und Evolution weit verbreitet sind, linearen Mischmodellen (die zufällige Effekte enthalten) und verallgemeinerten linearen Modellen (die mit nicht normalen Daten unter Verwendung von Verknüpfungsfunktionen und Exponentialfamilien umgehen [z Normal-, Poisson- oder Binomialverteilungen). GLMMs sind das beste Werkzeug zur Analyse von nicht normalen Daten, die zufällige Effekte beinhalten: Alles, was man tun muss, ist im Prinzip eine Verteilung, Verknüpfungsfunktion und Struktur der zufälligen Effekte anzugeben. lineare gemischte Modelle (die Zufallseffekte enthalten) und verallgemeinerte lineare Modelle (die nicht normale Daten unter Verwendung von Verknüpfungsfunktionen und Exponentialfamilienverteilungen (z. B. Normal-, Poisson- oder Binomialverteilungen) verarbeiten). GLMMs sind das beste Werkzeug zur Analyse von nicht normalen Daten, die zufällige Effekte beinhalten: Alles, was man tun muss, ist im Prinzip eine Verteilung, Verknüpfungsfunktion und Struktur der zufälligen Effekte anzugeben. lineare gemischte Modelle (die Zufallseffekte enthalten) und verallgemeinerte lineare Modelle (die nicht normale Daten unter Verwendung von Verknüpfungsfunktionen und Exponentialfamilienverteilungen (z. B. Normal-, Poisson- oder Binomialverteilungen) verarbeiten). GLMMs sind das beste Werkzeug zur Analyse von nicht normalen Daten, die zufällige Effekte beinhalten: Alles, was man tun muss, ist im Prinzip eine Verteilung, Verknüpfungsfunktion und Struktur der zufälligen Effekte anzugeben.
Seite 129, Kasten 1:
Die Residuen wiesen auf eine Überdispersion hin , daher haben wir die Daten mit einem Quasi-Poisson-Modell nachgerüstet. Trotz des großen geschätzten Skalenparameters (10.8) fanden Explorationsgraphen keine Hinweise auf Ausreißer auf der Ebene von Individuen, Genotypen oder Populationen. Wir verwendeten Quasi-AIC (QAIC) mit einem Freiheitsgrad für zufällige Effekte [49], für zufällige Effekte und dann für die Modellauswahl mit festen Effekten.
Seite 133, Kasten 4:
Hier skizzieren wir einen allgemeinen Rahmen für die Erstellung eines vollständigen (komplexesten) Modells, den ersten Schritt in der GLMM-Analyse. Anschließend kann man Parameter auswerten und Untermodelle vergleichen, wie im Haupttext und in Abbildung 1 beschrieben.
Geben Sie feste (Behandlungen oder Kovariaten) und zufällige Effekte an (experimentelle, räumliche oder zeitliche Blöcke, Individuen usw.). Berücksichtigen Sie nur wichtige Interaktionen. Schränken Sie das Modell von vornherein auf ein machbares Maß an Komplexität ein, das auf Faustregeln (> 5–6 Random-Effect-Levels pro Random-Effect und> 10–20 Proben pro Behandlungsebene oder experimenteller Einheit) und der Kenntnis angemessener Stichprobengrößen basiert frühere Studien [64,65].
Wählen Sie eine Fehlerverteilungs- und Verknüpfungsfunktion (z. B. Poisson-Verteilung und Protokollverknüpfung für Zähldaten, Binomialverteilung und Protokollverknüpfung für Anteilsdaten).
Grafische Überprüfung : Sind Datenvarianzen (transformiert durch die Verknüpfungsfunktion) kategorienübergreifend homogen? Sind die Antworten transformierter Daten in Bezug auf kontinuierliche Prädiktoren linear? Gibt es Ausreißer Einzelpersonen oder Gruppen? Stimmen Verteilungen innerhalb von Gruppen mit der angenommenen Verteilung überein?
Passen Sie GLMs mit festem Effekt sowohl an den gesamten (gepoolten) Datensatz als auch an jede Ebene der Zufallsfaktoren an [28,50]. Geschätzte Parameter sollten ungefähr normal über Gruppen verteilt sein (Parameter auf Gruppenebene können große Unsicherheiten aufweisen, insbesondere für Gruppen mit kleinen Stichprobengrößen). Passen Sie das Modell nach Bedarf an (z. B. Link-Funktion ändern oder Kovariaten hinzufügen).
Den vollen GLMM montieren. Nicht genügend Computerspeicher oder zu langsam: Reduzieren Sie die Komplexität des Modells. Wenn die Schätzung für eine Teilmenge der Daten erfolgreich ist, versuchen Sie es mit einem effizienteren Schätzalgorithmus (z. B. PQL, falls zutreffend). Konvergenzfehler (Warnungen oder Fehler): Reduzieren Sie die Modellkomplexität oder ändern Sie die Optimierungseinstellungen (stellen Sie sicher, dass die resultierenden Antworten sinnvoll sind). Probieren Sie andere Schätzalgorithmen aus. Null-Varianz-Komponenten oder Singularität (Warnungen oder Fehler): Überprüfen Sie, ob das Modell richtig definiert und identifizierbar ist (dh, alle Komponenten können theoretisch geschätzt werden). Modellkomplexität reduzieren. Das Hinzufügen von Informationen zum Modell (zusätzliche Kovariaten oder neue Gruppierungen für zufällige Effekte) kann Probleme lindern, ebenso wie das Zentrieren kontinuierlicher Kovariaten durch Subtrahieren ihres Mittelwerts [50]. Beseitigen Sie bei Bedarf zufällige Effekte aus dem Gesamtmodell. Löschen von (i) Begriffen von geringerem biologischem Interesse, (ii) Begriffen mit sehr geringen geschätzten Varianzen und / oder großer Unsicherheit oder (iii) Begriffen der Wechselwirkung. (Konvergenzfehler oder Nullabweichungen können auf unzureichende Daten hinweisen.)
χ2
Residuendiagramme sollten verwendet werden, um die Überdispersion zu bewerten, und transformierte Varianzen sollten kategorienübergreifend homogen sein. Nirgends in dem Artikel wurde erwähnt, dass Residuen normalverteilt sein sollen.
Ich denke, der Grund, warum es kontrastierende Aussagen gibt, spiegelt wider, dass GLMMs (Seite 127-128) ...
... sind selbst für Statistiker überraschend schwierig zu bedienen. Obwohl mehrere Softwarepakete mit GLMMs umgehen können (Tabelle 1), sind sich nur wenige Ökologen und Evolutionsbiologen der Möglichkeiten oder der möglichen Fallstricke bewusst. 311 von 537 GLMM-Analysen (58%), die von Google Scholar seit 2005 zur Überprüfung von Beiträgen zu Ökologie und Evolution durchgeführt wurden, verwendeten diese Tools in unangemessener Weise (siehe Online-Zusatzmaterial).
Und hier sind einige vollständige Beispiele mit GLMMs, einschließlich Diagnose.
Mir ist klar, dass diese Antwort eher ein Kommentar ist und als solcher behandelt werden sollte. Aber im Kommentarbereich kann ich keinen so langen Kommentar hinzufügen. Auch da ich glaube, dass dieses Papier für diese Diskussion von Wert ist (aber leider hinter einer Pay-Wall), dachte ich, dass es nützlich wäre, hier wichtige Passagen zu zitieren.
Zitierte Artikel:
[15] - GP Quinn, MJ Keough (2002): Experimentelles Design und Datenanalyse für Biologen, Cambridge University Press.
[16] - MJ Crawley (2002): Statistical Computing: Eine Einführung in die Datenanalyse mit S-PLUS, John Wiley & Sons.
[28] - JC Pinheiro, DM Bates (2000): Mixed-Effects-Modelle in S und S-PLUS, Springer.
[49] - F. Vaida, S. Blanchard (2005): Bedingte ähnliche Informationen für Modelle mit gemischten Effekten. Biometrika, 92, S. 351–370.
[50] - A. Gelman, J. Hill (2006): Datenanalyse unter Verwendung von Regression und mehrstufigen / hierarchischen Modellen, Cambridge University Press.
[64] - NJ Gotelli, AM Ellison (2004): Eine Einführung in die Ökologische Statistik, Sinauer Associates.
[65] - FJ Harrell (2001): Regressionsmodellierungsstrategien, Springer.
[66] - JK Lindsey (1997): Anwenden verallgemeinerter linearer Modelle, Springer.
[67] - W. Venables, BD Ripley (2002): Moderne angewandte Statistik mit S, Springer.
glm.diag.plots
sagt, es ist für jackknifed Abweichungsrest (ich vermute, dass Unterscheidung wichtig ist). Außerdem haben Sie Zähldaten . Vielleicht möchten Sie sich auf diese Tatsache konzentrieren. ZB sollen Zählungen (in gewissem Sinne) heteroskedastisch sein. Diagnosediagramme für die Zählungsregression sollten für Sie hilfreich sein (obwohl sie den Aspekt der gemischten Effekte nicht berücksichtigen).