Variable Reihenfolge und berücksichtigte Variabilität bei der linearen Modellierung mit gemischten Effekten


9

Angenommen, in einer Studie mit 15 Probanden wird die Antwortvariable (res) mit zwei erklärenden Variablen modelliert, wobei eine (Ebene) mit 5 Ebenen kategorisch ist und die andere (Antwortzeit: RT) kontinuierlich ist. Mit lmer im lme4-Paket von R habe ich:

fm1 <- lmer(res ~ level * RT + (level-1 | subject), data=mydata)
anova(fm1)

             Df  Sum Sq Mean Sq  F value
level        4  3974.9   993.7   9.2181
RT           1  1953.5  1953.5  18.1209
level:RT     4  5191.4  1297.9  12.0393

Wenn ich die Reihenfolge der beiden Variablen ändere, erhalte ich leicht unterschiedliche Ergebnisse für die Haupteffekte:

fm2 <- lmer(res ~ RT * level + (level-1 | subject), data=mydata)
anova(fm2)

             Df  Sum Sq Mean Sq  F value
RT           1  1671.8  1671.8  15.5077
level        4  4256.7  1064.2   9.8715
RT:level     4  5191.4  1297.9  12.0393

Kommt ein solcher Unterschied von dem sequentiellen (statt marginalen) Ansatz in lme4 bei der Berücksichtigung der Datenvariabilität? In diesem Fall führt die Änderung der variablen Reihenfolge nicht zu einem großen Unterschied, aber zuvor habe ich dramatische Unterschiede gesehen. Was bedeutet ein so großer Unterschied? Bedeutet dies, dass das Modell mehr Abstimmung benötigt, bis der große Unterschied verschwindet?

Meine zweite Frage lautet: Wenn ich wissen möchte, welche Variable zwischen den beiden (RT und Ebene) für mehr Datenvariabilität verantwortlich ist, was wäre ein vernünftiger Ansatz? Basierend auf der relativen Größe von Sum Sq (oder Mean Sq) der beiden Variablen? Gibt es eine statistische Testmethode, um die Variabilität zwischen erklärenden Variablen zu vergleichen?


Wenn Sie keine Daten veröffentlichen können, können Sie dann zumindest die Modellausgabe und nicht nur die ANOVA erstellen?
John

Antworten:


5

Ich werde versuchen, Ihre Fragen einzeln zu beantworten:

Kommt ein solcher Unterschied von dem sequentiellen (statt marginalen) Ansatz in lme4 bei der Berücksichtigung der Datenvariabilität?

Richtig. Wie Sie sehen können, sind nur für die Interaktion die Ergebnisse gleich. Die Interaktion wird in beiden Fällen zuletzt in das Modell eingegeben, sodass die Ergebnisse für diesen Begriff gleich sind. Wenn Sie jedoch zuerst "level" und dann "RT" eingeben, zeigen die Ergebnisse für "RT" an, ob "RT" signifikant ist, nachdem "level" bereits im Modell enthalten ist (und umgekehrt). Diese Ergebnisse sind auftragsabhängig.

Was bedeutet ein so großer Unterschied?

Angenommen, beide Variablen sind für sich genommen stark mit der Antwortvariablen verbunden, aber sie sind auch stark korreliert. In diesem Fall gibt es möglicherweise nicht viel Variabilität in der Antwortvariablen, die von der Variablen berücksichtigt werden muss, die als zweite in das Modell eingegeben wird. Daher werden Sie tendenziell dramatischere Unterschiede feststellen, wenn die erklärenden Variablen korreliert sind.

Bedeutet dies, dass das Modell mehr Abstimmung benötigt, bis der große Unterschied verschwindet?

Ich bin mir nicht sicher, was du mit "Tuning" meinst. Das Phänomen, das Sie beobachten, ist an sich kein Problem, obwohl es die Interpretation der Ergebnisse erschwert (siehe unten).

Vielleicht ist dies eine Möglichkeit zum "Stimmen". Wenn die erklärenden Variablen stark korreliert sind, können sie im Wesentlichen dasselbe messen. In diesem Fall kann man das Modell "optimieren", indem man entweder eine der Variablen entfernt oder sie zu einer einzigen Variablen kombiniert.

Meine zweite Frage lautet: Wenn ich wissen möchte, welche Variable zwischen den beiden (RT und Ebene) für mehr Datenvariabilität verantwortlich ist, was wäre ein vernünftiger Ansatz? Basierend auf der relativen Größe von Sum Sq (oder Mean Sq) der beiden Variablen? Gibt es eine statistische Testmethode, um die Variabilität zwischen erklärenden Variablen zu vergleichen?

Wenn die erklärenden Variablen korreliert sind, ist es ziemlich schwierig, ihre relative Bedeutung zu bestimmen. Dieses Problem tritt im Kontext der multiplen Regression ziemlich häufig auf, und Dutzende von Artikeln wurden zu diesem Thema verfasst, und es wurden viele Methoden zur Erreichung dieses Ziels vorgeschlagen. Es gibt sicherlich keinen Konsens über den am besten geeigneten Weg, und einige Leute könnten sogar vorschlagen, dass es keinen angemessenen Weg gibt, dies zu tun.

Die Quadratsummen werden Ihnen nicht helfen, da sie nicht auf der gleichen Anzahl von Freiheitsgraden basieren. Die mittleren Quadrate sind im Wesentlichen korrekt, aber wenn Sie die mittleren Quadrate verwenden, ist dies nichts anderes als die Verwendung der entsprechenden F-Werte (oder p-Werte), um die relative Bedeutung zu bestimmen. Ich denke, die meisten Leute würden dies nicht als angemessenen Weg zur Bestimmung der relativen Bedeutung betrachten.

Leider habe ich keine einfache Lösung. Stattdessen kann ich Ihnen eine Website vom Autor des relaimpoPakets vorschlagen . Ich denke nicht, dass das Paket Ihnen beim Anpassen von Modellen mit gemischten Effekten helfen wird, aber es gibt viele Verweise auf Artikel zu dem Thema, mit dem Sie sich befassen.

http://prof.beuth-hochschule.de/groemping/relaimpo/

Vielleicht möchten Sie auch in das AICcmodavgPaket schauen :

http://cran.r-project.org/web/packages/AICcmodavg/index.html


Schätzen Sie wirklich die Klarstellungen und Hilfe! Ist es in Bezug auf die relative Bedeutung jeder Variablen in einem Modell mit gemischten Effekten sinnvoll, den von lme () bereitgestellten AIC / BIC-Unterschied zu berücksichtigen? Definieren Sie mit meinen Daten beispielsweise drei Modelle: res ~ RT, res ~ level, res ~ RT * level. Verwenden Sie dann anova (), um die relative Bedeutung basierend auf ihrem AIC / BIC zu bewerten.
Bluepole

AIC / BIC-Werte werden häufig für die Modellauswahl verwendet. Wenn das Ihr Ziel wäre, dann ist dies ein Ansatz. Wenn Sie die relative Bedeutung der Variablen bestimmen möchten, können Sie Akaike-Gewichte verwenden. Eine sehr schöne und klare Präsentation zu dieser Idee finden Sie hier: bit.ly/pDQ7eq
Wolfgang

Vielen Dank für all die Hilfe. Ich weiß es wirklich zu schätzen ...
Bluepole
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.