Die WLS-Regression (Weighted Least Squares) ist kein transformiertes Modell. Stattdessen behandeln Sie einfach jede Beobachtung als mehr oder weniger informativ über die zugrunde liegende Beziehung zwischen und . Die Punkte, die aussagekräftiger sind, erhalten mehr Gewicht, und die weniger aussagekräftigen Punkte erhalten weniger Gewicht. Sie haben Recht, dass die WLS-Regression (Weighted Least Squares) technisch nur gültig ist, wenn die Gewichte a-priori bekannt sind. XY.
Die lineare Regression (OLS) ist jedoch ziemlich robust gegenüber Heteroskedastizität, und WLS ist dies auch, wenn Ihre Schätzungen im Bereich des Baseballstadiums liegen. Als Faustregel für die OLS-Regression gilt, dass sie nicht zu stark von Heteroskedastizität betroffen ist, solange die maximale Varianz nicht größer als das Vierfache der minimalen Varianz ist. Wenn beispielsweise die Varianz der Residuen / Fehler mit zunimmt , sind Sie in Ordnung, wenn die Varianz der Residuen am oberen Ende weniger als das Vierfache der Varianz der Residuen am unteren Ende beträgt. Dies impliziert, dass Sie einigermaßen sicher sind, wenn Ihre Gewichte Sie in diesen Bereich bringen. Es ist eine Art Hufeisen und HandgranatenXLage. Als Ergebnis können Sie versuchen, die Funktion zu schätzen, die die Varianz der Residuen mit den Pegeln Ihrer Prädiktorvariablen in Beziehung setzt.
Es gibt verschiedene Fragen, wie eine solche Schätzung vorgenommen werden sollte:
Denken Sie daran, dass die Gewichte der Kehrwert der Varianz sein sollten (oder was auch immer Sie verwenden).
Wenn Ihre Daten nur auf diskreten Ebenen vorkommen , wie in einem Experiment oder einer ANOVA, können Sie die Varianz direkt auf jeder Ebene schätzen und diese verwenden. Wenn es sich bei den Schätzungen um diskrete Werte einer kontinuierlichen Variablen handelt (z. B. 0 mg, 10 mg, 20 mg usw.), möchten Sie diese möglicherweise glätten, aber es wird wahrscheinlich keinen großen Unterschied machen. XX
Schätzungen von Abweichungen aufgrund der Quadratur sind jedoch sehr anfällig für Ausreißer und / oder hohe Hebelpunkte. Wenn Ihre Daten nicht gleichmäßig über sind oder Sie nur über relativ wenige Daten verfügen, wird die direkte Schätzung der Varianz nicht empfohlen. Es ist besser, etwas zu schätzen, von dem erwartet wird, dass es mit der Varianz korreliert, das aber robuster ist. Eine übliche Wahl wäre, die Quadratwurzel der absoluten Werte der Abweichungen vom bedingten Mittelwert zu verwenden. (In R wird beispielsweise ein Streudiagramm dieser Werte gegen angezeigt , das als "Spread-Level-Diagramm" bezeichnet wird, um die Diagnose einer potenziellen Heteroskedastizität zu erleichtern. Siehe meine Antwort hier .) Noch robuster ist möglicherweise die Verwendung des bedingten Interquartilbereichs oder die BedingungXplot(model, which=2)
Xabsolute Abweichung vom Median .
Wenn eine kontinuierliche Variable ist, besteht die typische Strategie darin, eine einfache OLS-Regression zu verwenden, um die Residuen zu erhalten, und dann eine der Funktionen in [ 3 ] (höchstwahrscheinlich die absolute Wurzelabweichung) auf regressieren . Der vorhergesagte Wert dieser Funktion wird für das diesem Punkt zugeordnete Gewicht verwendet. XX
Das Abrufen Ihrer Gewichte aus den Resten einer OLS-Regression ist sinnvoll, da OLS auch bei Vorhandensein von Heteroskedastizität unvoreingenommen ist. Diese Gewichte hängen jedoch vom Originalmodell ab und können die Passform des nachfolgenden WLS-Modells ändern. Daher sollten Sie Ihre Ergebnisse überprüfen, indem Sie die geschätzten Betas aus den beiden Regressionen vergleichen. Wenn sie sich sehr ähnlich sind, ist alles in Ordnung. Wenn die WLS-Koeffizienten von den OLS-Koeffizienten abweichen, sollten Sie die WLS-Schätzungen verwenden, um die Residuen manuell zu berechnen (die gemeldeten Residuen aus der WLS-Anpassung berücksichtigen die Gewichte). Nachdem Sie einen neuen Satz von Residuen berechnet haben, bestimmen Sie die Gewichte erneut und verwenden Sie die neuen Gewichte in einer zweiten WLS-Regression. Dieser Vorgang sollte wiederholt werden, bis zwei Sätze von geschätzten Betas ausreichend ähnlich sind (auch wenn dies nur einmal vorkommt, ist dies ungewöhnlich).
Wenn Sie sich bei diesem Vorgang etwas unwohl fühlen, weil die Gewichte geschätzt werden und weil sie vom früheren, falschen Modell abhängen, können Sie auch den Huber-White-Sandwich-Schätzer verwenden . Dies ist auch bei Vorhandensein von Heteroskedastizität konsistent, egal wie schwerwiegend sie ist, und es hängt nicht vom Modell ab. Es ist auch potenziell weniger stressig.
In meiner Antwort hier zeige ich eine einfache Version der gewichteten kleinsten Quadrate und die Verwendung der Sandwich-SEs: Alternativen zur Einweg-ANOVA für heteroskedastische Daten .