Ich analysiere die Daten eines Kollegen erneut. Die Daten und der R-Code sind hier .
Es ist ein 2x2x2x2x3 vollständig innerhalb von Ss Design. Eine der Prädiktorvariablen cue
ist eine zweistufige Variable, die, wenn sie auf eine Differenzbewertung reduziert wird, einen theoretisch relevanten Wert widerspiegelt. Zuvor war sie cue
auf eine Differenzbewertung innerhalb jedes Subjekts und jeder Bedingung zusammengebrochen und berechnete dann eine ANOVA, die eine MSE ergab, die sie dann für geplante Vergleiche der mittleren Differenzbewertung jeder Bedingung gegen Null verwenden konnte. Sie müssen mir vertrauen, dass sie nicht fischte und tatsächlich eine gute theoretische Grundlage für alle 24 Tests hatte.
Ich dachte, ich würde sehen, ob es einen Unterschied gibt, wenn stattdessen Modelle mit gemischten Effekten zur Darstellung der Daten verwendet werden. Wie im Code gezeigt, habe ich zwei Ansätze gewählt:
Methode 1 - Modellieren Sie die Daten als 2x2x2x2x3-Design, erhalten Sie nachträgliche Stichproben aus diesem Modell, berechnen Sie die cue
Differenzbewertung für jede Bedingung innerhalb jeder Stichprobe und berechnen Sie das 95% -Vorhersageintervall für die Cue-Differenzbewertung innerhalb jeder Bedingung.
Methode 2 - Auf cue
eine Differenzbewertung innerhalb jedes Subjekts und jeder Bedingung kollabieren, die Daten als 2x2x2x3-Design modellieren, a posteriori Proben aus diesem Modell erhalten, das 95% -Vorhersageintervall für die Cue-Differenzbewertung innerhalb jeder Bedingung berechnen.
Es scheint, dass Methode 1 breitere Vorhersageintervalle liefert als Methode 2, mit der Folge, dass, wenn man eine Überlappung mit Null als Kriterium für "Signifikanz" verwendet, nur 25% der Cue-Scores unter Methode 1 "signifikant" sind, während 75% der Cue-Scores "signifikant" sind sind unter Methode 2 "signifikant". Bemerkenswerterweise ähneln die durch Methode 2 erhaltenen Signifikanzmuster eher den ursprünglichen ANOVA-basierten Ergebnissen als die durch Methode 1 erhaltenen Muster.
Irgendeine Idee, was hier los ist?