Wenn ich jede Probenbeobachtung in einem linearen Regressionsmodell wiederhole und die Regression erneut durchführe, wie würde sich dies auf das Ergebnis auswirken?


Antworten:


13

Konzeptionell fügen Sie keine "neuen" Informationen hinzu, sondern "kennen" diese Informationen genauer.

Dies würde daher zu denselben Regressionskoeffizienten mit kleineren Standardfehlern führen.

Beispielsweise dupliziert die Funktion expand x in Stata jede Beobachtung x- mal.

sysuse auto, clear
regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515    .001586    -2.43   0.018    -.0070138   -.0006891
      length |  -.0795935   .0553577    -1.44   0.155    -.1899736    .0307867
       _cons |   47.88487    6.08787     7.87   0.000       35.746    60.02374
------------------------------------------------------------------------------

expand 5

regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515   .0006976    -5.52   0.000    -.0052232   -.0024797
      length |  -.0795935   .0243486    -3.27   0.001    -.1274738   -.0317131
       _cons |   47.88487   2.677698    17.88   0.000     42.61932    53.15043
------------------------------------------------------------------------------

Wie Sie sehen, werden früher nicht signifikante Koeffizienten (Längen) im erweiterten Modell statistisch signifikant und repräsentieren die Präzision, mit der Sie wissen, was Sie wissen.


Ja Standardfehler gehen in der Tat runter. Einige empfehlen hierfür eine gewichtete lineare Regression. Gibt es eine Methode, mit der Sie dies beheben können?
BBDynSys

3

Eine gewöhnliche lineare Regression löst das Problem

w=argminw||Xw-y||2
wo X ist die Matrix der Prädiktoren und yist die Antwort. Wenn Sie jede Probe wiederholenM Mal würde die Zielfunktion unverändert minimiert werden (mit Ausnahme eines multiplikativen Faktors) M). Daher wäre der Gewichtsvektor, der für das größere Problem optimal ist, der gleiche wie für das ursprüngliche kleinere Problem.

Einverstanden, aber ich denke, dass sich die Statistiken und Standardfehler ändern sollten, wenn von N zu NM gewechselt wird?
Palace Chan

Da OLS davon ausgeht, dass das Rauschen unabhängig ist, wäre der Standardfehler unterschiedlich, da die Anzahl der Freiheitsgrade wäre MN-P (N ist Originalgröße und P ist die Anzahl der Prädiktoren) und die Länge des Restvektors steigt um einen Faktor von M.
Innuo
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.