"T-Wert" in Verbindung mit nlme / lme4

Ich verstehe das Problem der Bestimmung der Freiheitsgrade in Mehrebenenmodellen; Daher ist die Entscheidung von Doug Bates et al. p-Werte nicht als Teil des lme4-Pakets in R zu melden. Ganz zu schweigen von der Fülle von Problemen mit und der unangemessenen Konzentration auf p-Werte im Allgemeinen.

Ich möchte jedoch die Art des "t-Werts" klären, der in der zusammenfassenden Ausgabe eines mehrstufigen Modells in nlme oder lme4 angegeben ist.

Ist es nicht so, dass der gemeldete t-Wert in nlme / lme4 aus einem Datensatz mit korrelierten Daten tatsächlich nicht aus der t-Verteilung stammt? (unabhängig davon, ob wir die Freiheitsgrade kennen oder nicht).

Ist der "t-Wert" in lme4 nicht möglicherweise irreführend?

t-test lme4-nlme mixed-model

— Rob Casson
quelle

Antworten:

Grundsätzlich ist nur , wobei Regressionsparameter ist. Dieser Wert ist nicht irreführend, wenn Sie ihn als dieses Verhältnis oder als "standardisierten" Parameter betrachten. Wenn Sie sich Bates 'ursprüngliche Argumente gegen Werte in lme4 ansehen, schreibt er hauptsächlich über die problematischen Freiheitsgrade und nicht über die der Werte selbst (siehe auch FAQ zu r-sig-gemischten Modellen ). Beachten Sie, dass unterschiedliche Statistiksoftware unterschiedliche Namenskonventionen haben können, z. B. wenn SPSS Parameter als und standardisierte Parameter als aufruft $t$ $\beta/\mathrm{SE}(\beta)$ $\beta$ $p$ $t$ $F$ $B$ $\beta$ 's - lme4 folgt der lmKonvention, sie Estimateund aufzurufen t value.

Pinheiro und Bates beschreiben die Verwendung von Werten in "Mixed-Effects-Modellen in S und S-PLUS" , daher ist es in diesem Buch schwierig, nach Argumenten gegen sie zu suchen. Die Verhältnisse werden auch von Bates in "lme4: Mixed-Effects-Modellierung mit R" im Vergleich zu und Werten für Modelle mit festen Effekten diskutiert (S. 70): $p$ $t$ $F$

In einem Modell mit festen Effekten sind die Profilspuren in der ursprünglichen Skala immer gerade Linien. Für gemischte Modelle können diese Spuren nicht linear sein, wie wir hier sehen, was der weit verbreiteten Annahme widerspricht, dass Schlussfolgerungen für die Parameter mit festen Effekten in linearen gemischten Modellen, basierend auf oder Verteilungen mit entsprechend angepassten Freiheitsgraden, vorliegen völlig genau. Die tatsächlichen Muster der Abweichungskonturen sind komplexer. $T$ $F$

was sie irgendwie ähnlich macht, obwohl sie nicht genau ausreichend sind, wie wir es für richtige Hypothesentests erwarten würden.

Beachten Sie auch, dass andere Autoren das df-Problem nicht immer als problematisch betrachten, z. B. Gałecki und Burzykowski in "Lineare Modelle mit gemischten Effekten unter Verwendung von R", nehmen einfach Freiheitsgrade an und behandeln ihre Verteilung als ungefähr , z. B. (S. 84): $n-p$ $t$

Die Nullverteilung der Test-Statistik ist die Verteilung mit Freiheitsgraden. $t$ $t$ $n − p$

und (S. 140):

Konfidenzintervalle für einzelne Komponenten des Parametervektors können basierend auf einer Verteilung konstruiert werden, die als ungefähre Verteilung für die Teststatistik verwendet wird $\beta$ $t$

Es scheint also, dass das Hauptprinzip darin besteht, dass Werte aufgrund der unklaren Nullverteilung zwar irreführend sein können, Werte jedoch zumindest als standardisierte Parameter immer noch nützlich sein können. Sie können sie auch zum Testen von Hypothesen verwenden, müssen jedoch einige Annahmen über ihre Verteilung treffen und sie anhand von Profildiagrammen überprüfen. Was Bates zu sagen scheint, ist, dass Sie sie auf eigenes Risiko verwenden. $p$ $t$

— Tim
quelle

Richtig, die Wald-Statistik (von von als "t-Statistik" angegeben lme4) ist im Allgemeinen für lineare gemischte Modelle (LMMs) bestenfalls nur ungefähr t-verteilt. Es ist nur in bestimmten, sehr speziellen Fällen genau t-verteilt, z. B. bei ANOVA mit gemischtem Modell mit verschachtelten Zufallsfaktoren und ausgeglichenen Daten.

Bei verallgemeinerten linearen gemischten Modellen (GLMMs) mit einer nicht normalen Antwort ist die Verteilung der Wald-Statistik möglicherweise überhaupt nicht sehr t-ähnlich. In diesem Thread zur logistischen Regression wird beispielsweise gezeigt, dass die Schwänze der Stichprobenverteilung eher dünner als normal als dicker als normal sein können. (Dieser Thread konzentriert sich nicht auf gemischte Modelle, aber das gleiche Problem tritt dort auf.)

— Jake Westfall
quelle

Danke für die Antwort Jake. Ich bin an Ihrem Kommentar interessiert, dass der lmd-t-Wert in einer verschachtelten, ausgeglichenen, gemischten Modell-ANOVA genau t-verteilt ist. Wenn unsere Daten nicht unabhängig sind, wird die Verteilung der Stichprobenvarianz nicht durch die Intraclass-Korrelation (ICC) beeinflusst. dh die Stichprobenvarianz stammt nicht von einem Standard-Ch-Quadrat; Daher stammt die zugehörige t-Statistik nicht aus einer Standard-t-Verteilung. Muss nicht mit einem Koeffizienten multipliziert werden, der den ICC enthält.

— Rob Casson

@RobCasson Würde Ihr Argument nicht zu dem Schluss führen, dass die T-Statistiken eines Designs mit zufälligen Effekten (einschließlich z. B. eines einfachen Pre-Test- oder Post-Test-Designs, das mit einem T-Test mit gepaarten Stichproben analysiert wurde) dies nicht tun einer t-Verteilung folgen? Welches ist nicht der Fall. Sie können versuchen, ein ANOVA-Lehrbuch zu konsultieren, beispielsweise das von Winer oder Kirk, in dem die Ableitungen für die von mir erwähnten Sonderfälle ausgelegt sind.

— Jake Westfall

Bei Entwürfen vor und nach dem Test unter Verwendung eines gepaarten t-Tests gibt es kein Problem, da die Unterschiede unabhängig sind und ihre Varianz von einem routinemäßigen Chi-Quadrat herrührt. Vorausgesetzt, diese Unterschiede sind normalverteilt, folgt die t-Verteilung. Ich denke an ein mehrstufiges (hierarchisches) Modell, bei dem es nicht offensichtlich ist, dass der Quotient der Regressionsparameterschätzung und seines Standardfehlers aus einer t-Verteilung stammt, selbst wenn das Design ausgewogen ist. Für ein gemischtes Modell ANOVA bin ich zuversichtlich, dass Sie Recht haben.

— Rob Casson

Ein Multi-Level - Modell mit symmetrischen Daten und kategorischen Prädiktoren IST eine Art Mischmodell ANOVA. Solche Modelle werden in ANOVA-Lehrbüchern behandelt, wie ich sie empfohlen habe. Wenn Sie also akzeptieren, dass dies für ANOVA mit gemischtem Modell gilt, müssen Sie akzeptieren, dass dies auch für Ihren nicht offensichtlichen Fall gilt.

— Jake Westfall