Unabhängigkeit von Residuen in einem computergestützten Experiment / Simulation?

17

Ich führte eine computerbasierte Bewertung verschiedener Methoden zur Anpassung eines bestimmten in den Paläowissenschaften verwendeten Modelltyps durch. Ich hatte ein umfangreiches Trainingsset und habe daher ein Testset nach dem Zufallsprinzip (geschichtete Zufallsauswahl) beiseite gelegt. Ich habe verschiedene Methoden an die Proben des Trainingssatzes angepasst und unter Verwendung der resultierenden Modelle die Reaktion für die Proben des Testsatzes vorhergesagt und einen RMSEP über die Proben im Testsatz berechnet. Dies ist ein einzelner Lauf . $m$ $m$

Ich habe diesen Vorgang dann viele Male wiederholt, jedes Mal, wenn ich einen anderen Trainingssatz ausgewählt habe, indem ich einen neuen Testsatz zufällig ausgewählt habe.

Nachdem ich dies getan habe, möchte ich untersuchen, ob eine der Methoden eine bessere oder schlechtere RMSEP-Leistung aufweist. Ich möchte auch mehrere Vergleiche der paarweisen Methoden durchführen. $m$

Mein Ansatz bestand darin, ein Modell mit linearen Mischeffekten (LME) mit einem einzelnen Zufallseffekt für Run anzupassen . Ich habe lmer()das lme4- Paket verwendet, um meinem Modell zu entsprechen, und die Funktionen des multcomp- Pakets, um die mehrfachen Vergleiche durchzuführen. Mein Modell war im Wesentlichen

lmer(RMSEP ~ method + (1 | Run), data = FOO)

Dabei methodhandelt es sich um einen Faktor, der angibt, mit welcher Methode die Modellvorhersagen für den Testsatz erstellt wurden, und Runum einen Indikator für jeden einzelnen Lauf meines "Experiments".

Meine Frage bezieht sich auf die Reste der LME. Angesichts des einzelnen Zufallseffekts für den Lauf gehe ich davon aus, dass die RMSEP-Werte für diesen Lauf bis zu einem gewissen Grad korreliert sind, aber zwischen den Läufen nicht korreliert sind, basierend auf der induzierten Korrelation, die der Zufallseffekt bietet.

Ist diese Annahme der Unabhängigkeit zwischen den Läufen gültig? Wenn nicht, gibt es eine Möglichkeit, dies im LME-Modell zu berücksichtigen, oder sollte ich nach einer anderen Art der statischen Analyse suchen, um meine Frage zu beantworten?

— Setzen Sie Monica - G. Simpson wieder ein
quelle

Sind die Residuen abhängig von den vorhergesagten zufälligen Effekten oder bedingungslos und sind in den Simulationen die vorhergesagten zufälligen Effekte konstant oder variieren. Denken Sie daran, dass Sie versuchen, sich ein Bild von den Standardsimulationsmethoden in LME4 zu machen, ohne dass dies möglich ist (aber das Projekt wurde abgebrochen, bevor ich es aussortierte).

— Phaneron

Ich bin mir nicht sicher, ob ich dem vollständig folge, aber die verschiedenen Läufe des Zeichentrainingssatzes -> Fitmodelle -> RMSEP berechnen werden alle vor der LME durchgeführt. Der Zufallseffekt gilt für den Lauf, da jeder Lauf einen anderen Schnittpunkt (RMSEP) aufweist, da verschiedene Kombinationen von Testsatz-Stichproben ausgewählt werden, dies ist jedoch während des Laufs konstant. Was das bedingte / unbedingte Bit betrifft, bin ich mir nicht sicher / klar, was du meinst. Danke für deinen Kommentar.

— Setzen Sie Monica - G. Simpson

4

Sie führen hier im Wesentlichen eine Art Kreuzvalidierung für jede Ihrer m Methoden durch und möchten dann sehen, welche Methode besser abschneidet. Die Ergebnisse zwischen den Läufen sind auf jeden Fall abhängig, da sie auf denselben Daten basieren und Sie Überschneidungen zwischen Ihren Zügen / Testsätzen haben. Die Frage ist, ob dies wichtig sein sollte, wenn Sie die Methoden vergleichen.

Angenommen, Sie führen nur einen Durchlauf durch und stellen fest, dass eine Methode besser ist als die anderen. Sie würden sich dann fragen - liegt das einfach an der konkreten Auswahl des Test-Sets? Aus diesem Grund wiederholen Sie Ihren Test für viele verschiedene Züge / Testsätze. Um festzustellen, dass eine Methode besser als andere Methoden ist, führen Sie sie mehrmals aus und vergleichen Sie sie bei jedem Durchlauf mit den anderen Methoden (Sie haben verschiedene Möglichkeiten, den Fehler / Rang / usw. zu untersuchen). Wenn Sie nun feststellen, dass eine Methode bei den meisten Läufen die bessere Leistung erbringt, ist das Ergebnis das, was es ist. Ich bin mir nicht sicher, ob es hilfreich ist, einen p-Wert anzugeben. Oder, wenn Sie einen p-Wert angeben möchten, fragen Sie sich, was das Hintergrundmodell hier ist?

— Bitweise
quelle

Danke für deine Gedanken. Ich denke, Ihre letzten Zeilen fassen ziemlich genau zusammen, wo ich jetzt bin. In Erwartung dessen habe ich ein Follow-up, in dem ich nach geeigneten Möglichkeiten zur Analyse dieser Art von Daten frage. Ich mag auch Ihren Punkt über "es ist, was es ist"; das war auch in letzter Zeit an den Rändern meines Denkprozesses herumgewirbelt.

— Setzen Sie Monica - G. Simpson

Ein Problem, das ich mit dem Teil "Ergebnis ist, was es ist" habe, ist, dass die RMSEPs von Lauf zu Lauf ziemlich variabel sind. Ein oder zwei Methoden sind also im Durchschnitt besser, aber sind sie angesichts der Variabilität in den RMSEPs wirklich besser? Daher versuche ich eine LME mit zufälliger Auswirkung für Run. Um diesen Ansatz zu modifizieren, müsste ich wissen, wer jeden Datensatz korreliert. Es scheint, dass jeder statistische Test, den ich mache, so modifiziert werden muss. Daher habe ich immer noch Schwierigkeiten, die Mittelwerte aus den 50 Durchläufen für jede Methode zu interpretieren und ob ich Schlussfolgerungen ziehen kann ...?

— Setzen Sie Monica - G. Simpson

1

Meines Erachtens wäre die Bewertung Ihrer Methoden über alle möglichen Zug- / Testsatzpartitionen Ihrer Daten die umfassendste gewesen. Da dies unmöglich ist, schätzen Sie dies mit Zufallsläufen. Nehmen wir an, Sie könnten alle Zug- / Testpartitionen auswerten - es bleibt Ihnen immer noch die Frage, wie Sie entscheiden können, welche Methode besser ist. Es geht also eher darum, wie Sie definieren, was "gut" ist. Bedeutet dies eine hohe Durchschnittspunktzahl? Oder bedeutet dies, dass in vielen Läufen eine Methode eine höhere Punktzahl erzielt als die anderen (persönlich denke ich, dass dies eine bessere Version wäre)?

— Bitweise

1

Kann nicht wirklich verstehen, was Sie getan haben, aber

für den Lauf gehe ich davon aus, dass die RMSEP-Werte für diesen Lauf bis zu einem gewissen Grad korreliert sind

Ja, das spiegelt wider, wie herausfordernd das Testset in diesem Lauf war

sind aber nicht korreliert zwischen den Läufen

Nein, aufgrund der Art und Weise, wie Sie die Testsätze abgetastet haben, überlappen sich einige stärker als andere (definitiv keine unabhängigen Replikationen).

Sie müssten die Abhängigkeit auf der Grundlage der Überlappung modellieren oder die Bewertung entwerfen, damit die Läufe unabhängig sind. Ich würde die Statistik zur Kreuzvalidierung lesen ;-)

— Phaneron
quelle

+1 Danke für die Antwort. Hmm, ich verstehe was du meinst. Je ähnlicher die Testsätze sind, desto ähnlicher sind ihre RMSEP-Werte. OK, so ist es, als ob die Daten räumlich oder zeitweise korreliert wären. Die Art und Weise, wie ich die Trainingssätze / Testsätze erstelle, sollte bedeuten, dass sie sich im Durchschnitt alle so stark unterscheiden. Ich bin nicht sicher, welcher Lebenslauf mich hierher bringen würde - und in gewissem Sinne mache ich das sowieso nur über einen Resampling-Ansatz. Werde dann wohl einen anderen Q fragen, wie man das eigentliche Problem löst.

— Setzen Sie Monica - G. Simpson

Ich lasse dies bis zum Ende des Bounty-Zeitraums offen, um zu sehen, ob jemand anderes beißt, aber ich weiß Ihre Gedanken hier zu schätzen und werde Bounty akzeptieren und vergeben, wenn keine anderen Antworten vorliegen.

— Setzen Sie Monica - G. Simpson