Angabe einer Kovarianzstruktur: Vor- und Nachteile


15

Was sind die Vorteile der Angabe einer Kovarianzstruktur in einer GLM (anstatt alle nicht diagonalen Einträge in der Kovarianzmatrix als Null zu behandeln)? Abgesehen davon, was man über die Daten weiß, macht man es auch

  1. Passform verbessern?
  2. Verbesserung der Vorhersagegenauigkeit für ausgelagerte Daten?
  3. Lassen Sie uns das Ausmaß der Kovarianz abschätzen?

Was kostet die Einführung einer Kovarianzstruktur? Macht es

  1. Rechenkomplikationen für Schätzalgorithmen hinzufügen?
  2. Erhöhen Sie die Anzahl der geschätzten Parameter. Erhöhen Sie auch AIC, BIC, DIC.

Ist es möglich, die richtige Kovarianzstruktur empirisch zu bestimmen, oder hängt dies von Ihrer Kenntnis des datengenerierenden Prozesses ab?

Irgendwelche Kosten / Nutzen, die ich nicht erwähnt habe?


5
Grundsätzlich Sie müssen eine Kovarianzstruktur in GLM angeben. Wenn Sie mit "keine Kovarianz annehmen" meinen, "alle nicht diagonalen Einträge in der Kovarianzmatrix sind Null", dann haben Sie nur eine ganz bestimmte Kovarianzstruktur angenommen. (Sie könnten noch spezifischer sein, indem Sie z. B. annehmen, dass alle Abweichungen gleich sind.) Fazit: Ich bin mir nicht sicher, ob die Frage in ihrer aktuellen Form sinnvoll ist. (Ich habe mich trotzdem empört, weil ich denke, dass ich viel lernen werde, wenn die Gurus anfangen zu reden.) Oder verstehe ich dich falsch?
S. Kolassa - Wiedereinsetzung von Monica

Beziehen Sie sich auf die Kovarianzstruktur in einem GLM mit einer multivariaten normalen Mischungsverteilung oder auf die Kovarianzstrukturanalyse einer Kovarianzmatrix oder auf etwas anderes?
Tim

1
@StephanKolassa Möchten Sie Ihren Kommentar in eine Antwort kopieren? Es scheint die Frage so gut zu beantworten, wie es nur geht.
Corone

@Corone: Guter Punkt, danke für die Erinnerung. Ich ging und schrieb eine Antwort. Vielleicht
mischt sich

Antworten:


13

Grundsätzlich Sie müssen eine Kovarianzstruktur in GLM angeben. Wenn Sie mit "keine Kovarianz annehmen" meinen, "alle nicht diagonalen Einträge in der Kovarianzmatrix sind Null", dann haben Sie nur eine ganz bestimmte Kovarianzstruktur angenommen. (Sie könnten noch spezifischer sein, indem Sie z. B. annehmen, dass alle Varianzen gleich sind.)

Dies ist wirklich eine Variation von "Ich bin kein Pragmatiker". - "Sie haben gerade die Philosophie beschrieben, die Sie unterschreiben."

Als solches würde ich sagen, dass der Vorteil des Denkens über die Kovarianzstruktur die Möglichkeit ist, ein Modell zu verwenden, das besser zu Ihren Daten passt. So wie Sie bekannte funktionale Beziehungen für den erwarteten Wert (oder den Mittelwert) Ihrer Beobachtungen einbeziehen sollten, sollten Sie jede Struktur berücksichtigen, die Sie in der Kovarianz kennen.

Und natürlich ist der "Nachteil", dass Sie tatsächlich über all dies nachdenken müssen. Es ist viel einfacher, nur die Standardeinstellungen Ihrer Software zu verwenden. Aber das ist so, als würde man immer den ersten Gang einlegen, weil das Auto beim Kauf den ersten Gang eingelegt hatte und das Verstehen des Gangwechsels Mühe kostet. Nicht empfohlen.


2
+1 Ich stimme jedem Wort zu, das Sie geschrieben haben, aber ich denke, dass dies die Frage nicht vollständig beantwortet. Verringert die Angabe einer geeigneteren Kovarianzstruktur beispielsweise die Modellreste?
Jack Tanner

1
@ JackTanner: danke! Und Sie haben Recht damit, dass ich Ihre Frage nicht vollständig beantwortet habe, weshalb ich dies ursprünglich nur als Kommentar gepostet habe. Um ehrlich zu sein: Ich weiß zum Beispiel nicht, ob die Angabe der korrekten Kovarianzstruktur die Residuen zwangsläufig reduzieren wird. Ich stelle mir vor, dass das Auferlegen einer zusätzlichen Struktur für (die Kovarianz von) Residuen diese sogar erhöhen kann - aber Parameter einsparen kann. Stellen Sie sich eine AR (1) -Struktur anstelle einer unstrukturierten Kovarianzmatrix vor. Ähnliches gilt für die anderen Fragen in Ihrem Beitrag. Ich wäre auf jeden Fall an den Ansichten anderer Leute interessiert.
S. Kolassa - Wiedereinsetzung von Monica

1
+1; Es ist eine nützliche Antwort, außerdem ist das Gleichnis fantastisch.
Russellpierce

2

Hier ist eine weitere unvollständige Antwort, die sich nicht einmal direkt auf GLM bezieht ... Aufgrund meiner sehr begrenzten Erfahrung mit der Modellierung von Strukturgleichungen (SEM) habe ich einige Ideen aufgegriffen, die meiner Hoffnung nach etwas zur Diskussion beitragen könnten. Bitte denken Sie daran, dass ich aus (begrenzten) Erfahrungen mit SEM spreche, nicht aus GLM an sich , und ich weiß nicht, ob und wo diese Unterscheidung wichtig werden könnte. Ich bin eher ein Statistikbenutzer als ein Statistiker, daher bin ich mir auch nicht sicher, ob diese Ideen auf alle oder sogar die meisten Daten zutreffen. Ich habe nur festgestellt, dass sie sich bei den meisten meiner eigenen beworben haben.

Zunächst möchte ich @ StephanKolassas Betonung auf die Wichtigkeit der Modellierung dessen, was Sie bereits wissen, wiederholen. Sie erkennen dies als eine Seite an, aber ich denke, die Vorteile, nach denen Sie fragen, sind die Vorteile des Modellierens dessen, was Sie wissen. Als solche geben sie aussagekräftig wieder, dass Ihr resultierendes Modell die Informationen über die Kovarianzstruktur enthält, die Sie hinzugefügt haben.

Im SEM habe ich gefunden (durch begrenzte Erfahrung, nicht durch theoretisches Studium):

Leistungen

  1. Das Modellieren der Kovarianzstruktur verbessert die Anpassungsgüte (Goodness of Fit, GoF), wenn die Kovarianz viel stärker als der Standardfehler ist (dh wenn der symmetrische Pfad signifikant ist). Dies bedeutet, dass Sie GoF in der Regel nicht verbessern, indem Sie Korrelationen nahe Null modellieren, und Multikollinearität kann Probleme für GoF verursachen, da sie Standardfehler aufbläht.

  2. Ich habe noch nicht versucht, Daten für die Vorhersage bereitzustellen, aber ich habe die Vorstellung, dass das Festlegen der Kovarianzen auf Null in Ihrem Modell mit dem Vorhersagen eines DV durch Kombinieren eines Satzes separater linearer IV-Regressionsgleichungen vergleichbar ist. Im Gegensatz zu diesem Ansatz ist bei der Erstellung eines Gleichungsmodells zur Vorhersage des DV die Kovarianz in den IVs durch mehrere Regressionen bedingt. Dies verbessert mit Sicherheit die Interpretierbarkeit, indem direkte Effekte von indirekten Effekten getrennt werden, die vollständig innerhalb des enthaltenen Satzes von IVs auftreten. Ehrlich gesagt bin ich mir nicht sicher, ob dies die Vorhersage des DV verbessert. Als Statistikbenutzer und nicht als Statistiker habe ich die folgende Funktion für Simulationstests zusammengefasst, um eine unvollständige Antwort zu erhalten (anscheinend "Ja, die Vorhersagegenauigkeit verbessert sich, wenn das Modell IV-Kovarianz enthält") in diesem hoffentlich analogen Fall ...

    simtestit=function(Sample.Size=100,Iterations=1000,IV.r=.3,DV.x.r=.4,DV.z.r=.4) {
    require(psych); output=matrix(NA,nrow=Iterations,ncol=6); for(i in 1:Iterations) {
    x=rnorm(Sample.Size); z=rnorm(Sample.Size)+x*IV.r
    y=rnorm(Sample.Size)+x*DV.x.r+z*DV.z.r
    y.predicted=x*lm(y~x+z)$coefficients[2]+z*lm(y~x+z)$coefficients[3]
    bizarro.y.predicted=x*lm(y~x)$coefficients[2]+z*lm(y~z)$coefficients[2]
    output[i,]=c(cor(y.predicted,y)^2,cor(bizarro.y.predicted,y)^2,
    cor(y.predicted,y)^2>cor(bizarro.y.predicted,y)^2,cor(x,z),cor(x,y),cor(y,z))}
    list(output=output,percent.of.predictions.improved=100*sum(output[,3])/Iterations,
    mean.improvement=fisherz2r(mean(fisherz(output[,1])-fisherz(output[,2]))))}
    
    # Wrapping the function in str( ) gives you the gist without filling your whole screen
    str(simtestit())
    

    N= IterationsnSample.Sizez = x +y = x + z +yxz

    1y.predicted

    2bizarro.y.predicted

    outputIterationsR2121>2rxyzoutputsimtestit()str( )R21rpsych

    R2R2IV.r) ist größer. Da Sie mit Ihrer GLM-Funktion wahrscheinlich besser vertraut sind als ich (was überhaupt nicht der Fall ist), können Sie diese Funktion möglicherweise ändern oder die Grundidee verwenden, um die GLM-Vorhersagen für beliebig viele IVs ohne allzu großen Aufwand zu vergleichen. Angenommen, dies würde (oder würde) sich auf die gleiche Weise herausstellen, scheint die grundlegende Antwort auf Ihre zweite Frage wahrscheinlich Ja zu sein, aber wie viel davon abhängt, wie stark die IVs kovarieren. Unterschiede im Stichprobenfehler zwischen den ausgelassenen Daten und den Daten, die zur Anpassung an das Modell verwendet wurden, könnten die Verbesserung der Vorhersagegenauigkeit innerhalb des letztgenannten Datensatzes überwältigen, da die Verbesserung wiederum gering zu sein scheint, sofern keine starken IV - Korrelationen bestehen (zumindest in der maximal grundlegende Fall mit nur zwei IVs).

  3. Wenn Sie einen freien Pfad für die Kovarianz zwischen IVs im Modell angeben, fordert Sie die Modellanpassungsfunktion auf, den Koeffizienten dieses Pfads zu schätzen, der das Ausmaß der Kovarianz zwischen IVs darstellt. Wenn Sie mit Ihrer GLM-Funktion ein Modell angeben können, bei dem die Kovarianz zwischen den IVs frei geschätzt und nicht auf Null festgelegt wird, ist Ihr Problem hoffentlich eine einfache Frage, wie Sie dies tun und wie Sie Ihre Funktion zur Ausgabe bringen diese Schätzung. Wenn Ihre Funktion standardmäßig IV-Kovarianzen schätzt, vereinfacht sich Ihr Problem weiter, bis auf die letztere Angelegenheit (wie es der Fall ist lm( )).

Kosten

  1. Ja, das freie Abschätzen der Kovarianz zwischen IVs bedeutet, dass der Modellanpassungsalgorithmus einige Arbeit leisten muss, um den Koeffizienten dieses Signalwegs abzuschätzen. Wenn dieser Pfad im Modell nicht angegeben wird, bedeutet dies normalerweise, dass der Koeffizient auf Null festgelegt wird. Dies bedeutet, dass der Modellanpassungsalgorithmus den Koeffizienten nicht schätzen muss. Das Schätzen zusätzlicher Kovarianzparameter bedeutet, dass das Gesamtmodell mehr Zeit zum Anpassen benötigt. Bei Modellen, deren Schätzung bereits sehr lange dauert, kann die zusätzliche Zeit erheblich sein, insbesondere wenn Sie viele Infusionen haben.

  2. Ja, eine frei geschätzte Kovarianzstruktur impliziert Parameterschätzungen. Populationen haben Kovarianzparameter. Wenn Sie also Populationskovarianzen schätzen, schätzen Sie Parameter. Wenn Ihr Modell jedoch viel besser passt, weil Sie eine nicht-triviale Korrelation schätzen, anstatt sie auf Null zu setzen, können Sie wahrscheinlich erwarten, dass sich die Informationskriterien von Akaike und Bayes verbessern, genau wie bei anderen Kriterien, die GoF enthalten. Ich kenne das Kriterium der Abweichungsinformationen nicht (die DIC, auf die Sie sich beziehen, oder?), Aber der Wikipedia-Seite zufolge scheint es auch GoF und eine Strafe für die Komplexität des Modells zu beinhalten.

    Daher sollte die GoF nur proportional stärker verbessert werden müssen, als die Komplexität des Modells zunimmt, um die DIC zu verbessern. Geschieht dies nicht insgesamt, verschlechtern sich Kriterien wie diese, die die Komplexität des Modells beeinträchtigen, je mehr IV-Kovarianzen geschätzt werden. Dies könnte ein Problem sein, wenn zum Beispiel Ihre IVs nicht korrelieren, die Kovarianzstruktur jedoch ohnehin frei geschätzt wird, weil Sie der Meinung sind, dass die IVs korrelieren könnten, oder weil dies die Standardeinstellung Ihrer Funktion ist. Wenn Sie theoretische Gründe für die Annahme haben, dass eine Korrelation Null ist, und Sie möchten nicht, dass Ihr Modell diese Annahme testet, ist dies ein Fall, in dem Sie möglicherweise berechtigt sind, den Pfad auf Null festzulegen. Wenn Ihre vorherige Theorie ungefähr richtig ist,

Keine Ahnung, mit welcher Funktion Sie arbeiten, aber ich bin mir sicher, dass ich damit nicht vertraut bin. Daher bin ich sicher, dass diese Antwort verbessert werden könnte, insbesondere meine Antwort auf die zweite Vorteilsfrage (zum einen eine mathematische) Ein Beweis dafür, was ich durch Simulationen über multiple Regression beantworte, ist wahrscheinlich irgendwo da draußen verfügbar. Ich bin nicht einmal mit GLM im Allgemeinen vertraut (vorausgesetzt, Sie meinen verallgemeinertes , nicht allgemeines lineares Modellieren, wie das Tag vorschlägt), daher hoffe ich, dass jemand diese Antwort kommentiert oder bearbeitet, wenn die Unterschiede zu SEM meine Antworten auf Ihre Fragen ungültig machen überhaupt.

Trotzdem scheinen wir zehn Monate darauf gewartet zu haben, dass die Gurus ihre Stimme erheben. Wenn sie das nicht schaffen, muss es wohl nur für sich alleine tun. Lassen Sie mich wissen, ob Sie eine bestimmte GLM-Funktion im Sinn haben, mit der ich mich in R anlegen soll. Ich kann möglicherweise herausfinden, wie Sie # 3 direkter für Ihre Anwendung beantworten können, wenn Sie eine GLM-Funktion angeben, die für R von Interesse ist. Ich bin auch kein Experte für Simulationstests, aber ich denke, Ihre anderen vier Fragen könnten simuliert werden (direkter) auch.


2
+1 Eine beeindruckende nachdenkliche Antwort. Willkommen bei CV, Nick!
whuber
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.