Wenn vollen Rang hat, existiert die Umkehrung von und wir erhalten die Schätzung der kleinsten Quadrate: und
Wie können wir in der Varianzformel intuitiv erklären ? Die Technik der Ableitung ist für mich klar.
Wenn vollen Rang hat, existiert die Umkehrung von und wir erhalten die Schätzung der kleinsten Quadrate: und
Wie können wir in der Varianzformel intuitiv erklären ? Die Technik der Ableitung ist für mich klar.
Antworten:
Stellen Sie sich eine einfache Regression ohne konstanten Term vor, bei der der einzelne Regressor auf dem Stichprobenmittelwert zentriert ist. Dann ist ( fach) seine Stichprobenvarianz und sein Kehrwert. Je höher die Varianz = Variabilität im Regressor ist, desto geringer ist die Varianz des Koeffizientenschätzers: Je mehr Variabilität wir in der erklärenden Variablen haben, desto genauer können wir den unbekannten Koeffizienten schätzen.
Warum? Denn je variabler ein Regressor ist, desto mehr Informationen enthält er. Wenn es viele Regressoren gibt, verallgemeinert sich dies auf die Umkehrung ihrer Varianz-Kovarianz-Matrix, die auch die Ko-Variabilität der Regressoren berücksichtigt. Im Extremfall, in dem diagonal ist, hängt die Genauigkeit für jeden geschätzten Koeffizienten nur von der Varianz / Variabilität des zugeordneten Regressors ab (unter Berücksichtigung der Varianz des Fehlerterms).
Eine einfache Art, ist das (multivariate) Matrixanalogon von σ 2 , was die Varianz des Steigungskoeffizienten bei der einfachen OLS-Regression ist. Man kann sogarσ2 bekommen für diese Varianz, indem der Schnittpunkt im Modell weggelassen wird, dh indem eine Regression über den Ursprung durchgeführt wird.
Aus jeder dieser Formeln ist ersichtlich, dass eine größere Variabilität der Prädiktorvariablen im Allgemeinen zu einer genaueren Schätzung ihres Koeffizienten führt. Diese Idee wird häufig bei der Gestaltung von Experimenten ausgenutzt, bei denen versucht wird, durch Auswahl von Werten für die (nicht zufälligen) Prädiktoren die Determinante von so groß wie möglich zu machen, wobei die Determinante ein Maß für die Variabilität ist.
Hilft die lineare Transformation der Gaußschen Zufallsvariablen? Unter Verwendung der Regel, dass wenn , dann A x + b ≤ N ( A μ + b , A T ≤ A ) ist .
Unter der Annahme, dass das zugrunde liegende Modell ist und ε ~ N ( 0 , σ 2 ) .
So ist nur eine komplizierte Skalierungsmatrix , dass Transformationen der Verteilung von Y .
Hoffe das war hilfreich.
Ich werde einen anderen Ansatz verfolgen, um die Intuition zu entwickeln , die der Formel Var zugrunde liegt. Bei der Entwicklung der Intuition für das multiple Regressionsmodell ist es hilfreich, das bivariate lineare Regressionsmodell zu berücksichtigen, d.H. ,yi=α+βxi+εi,α + β x i wird häufig als deterministischer Beitrag zu y i und ε i als stochastischer Beitrag bezeichnet. Ausgedrückt als Abweichungen von der Stichprobeneinrichtung ( ˉ x , ˉ y ) kann dieses Modell auch geschrieben werden als ( y i - ˉ y ) = β ( x i - ˉ x ) + ( ε)
Um die Entwicklung der Intuition zu unterstützen, nehmen wir an, dass die einfachsten Gauß-Markov-Annahmen erfüllt sind: nichtstochastisch, ∑ n i = 1 ( x i - ˉ x ) 2 > 0 für alle n und ε i ∼ iid ( 0 , σ 2 ) für alle i = 1 , … , n . Wie Sie bereits sehr gut wissen, garantieren diese Bedingungen, dass Var wobei Var
Warum sollte die Probengröße zu verdoppeln, ceteris paribus , weil die Varianz von β in zwei Hälften geschnitten sein? Dieses Ergebnis wird eng mit der iid Annahme verbunden , angewendet ε : Da die einzelnen Fehler angenommen werden iid sollte jede Beobachtung behandelt werden ex ante als gleichermaßen informativ. Wenn Sie die Anzahl der Beobachtungen verdoppeln , verdoppelt sich auch die Informationsmenge über die Parameter, die die (angenommene lineare) Beziehung zwischen x und y beschreiben . Wenn doppelt so viele Informationen vorliegen, halbiert sich die Unsicherheit über die Parameter. Ebenso sollte es einfach sein, die Intuition dafür zu entwickeln, warum man verdoppelt verdoppeltauch die Varianz von β .
Wenden wir uns also auf Ihre wichtigste Frage, die für den Anspruch über die Entwicklung von Intuition ist , dass die Varianz von β ist umgekehrt proportional zur Varianz von x . Um Begriffe zu formalisieren, betrachten wir von nun an zwei separate bivariate lineare Regressionsmodelle, Modell ( 1 ) und Modell ( 2 ) . Wir nehmen an, dass beide Modelle die Annahmen der einfachsten Form des Gauß-Markov-Theorems erfüllen und dass die Modelle die exakt gleichen Werte von α , β , n und σ 2 haben . Unter diesen Voraussetzungen ist es leicht zu zeigen, dass E; in Worten, beide Schätzer sind unvoreingenommen. Entscheidend wird auch angenommen, dass whereas x ( 1 ) = ˉ x ( 2 ) = ˉ x ,Var . Nehmen wir ohne Einschränkung der Allgemeinheit an, dass Var . Welcher Schätzer für β wird die kleinere Varianz haben? Anders ausgedrückt, wird ß oder β im Durchschnittnäheranβ? Aus der früheren Diskussion haben wirVarfürk=1,2. WeilVar aus der Annahme folgt, dass Var
implies that . The bivariate linear regression model, expressed in deviations from means, states that for Model and for Model . If , this means that the deterministic component of Model , , has a greater influence on than does the deterministic component of Model , . Recall that the both models are assumed to satisfy the Gauss-Markov assumptions, that the error variances are the same in both models, and that . Since Model imparts more information about the contribution of the deterministic component of than does Model , it follows that the precision with which the deterministic contribution can be estimated is greater for Model than is the case for Model . The converse of greater precision is a lower variance of the point estimate of .
It is reasonably straightforward to generalize the intuition obtained from studying the simple regression model to the general multiple linear regression model. The main complication is that instead of comparing scalar variances, it is necessary to compare the "size" of variance-covariance matrices. Having a good working knowledge of determinants, traces and eigenvalues of real symmetric matrices comes in very handy at this point :-)
Say we have observations (or sample size) and parameters.
The covariance matrix of the estimated parameters etc. is a representation of the accuracy of the estimated parameters.
If in an ideal world the data could be perfectly described by the model, then the noise will be . Now, the diagonal entries of correspond to etc. The derived formula for the variance agrees with the intuition that if the noise is lower, the estimates will be more accurate.
In addition, as the number of measurements gets larger, the variance of the estimated parameters will decrease. So, overall the absolute value of the entries of will be higher, as the number of columns of is and the number of rows of is , and each entry of is a sum of product pairs. The absolute value of the entries of the inverse will be lower.
Hence, even if there is a lot of noise, we can still reach good estimates of the parameters if we increase the sample size .
I hope this helps.
Reference: Section 7.3 on Least squares: Cosentino, Carlo, and Declan Bates. Feedback control in systems biology. Crc Press, 2011.
Dies baut auf der Antwort von @Alecos Papadopuolos auf.
Denken Sie daran, dass das Ergebnis einer Regression der kleinsten Quadrate nicht von den Maßeinheiten Ihrer Variablen abhängt. Angenommen, Ihre X-Variable ist ein Längenmaß in Zoll. Eine erneute Skalierung von X, beispielsweise durch Multiplizieren mit 2,54, um die Einheit in Zentimeter zu ändern, hat keinen wesentlichen Einfluss auf die Dinge. Wenn Sie das Modell erneut anpassen, ist die neue Regressionsschätzung die alte Schätzung geteilt durch 2,54.
Das Die Matrix ist die Varianz von X und spiegelt daher den Maßstab von X wider. Wenn Sie den Maßstab ändern, müssen Sie dies in Ihrer Schätzung von berücksichtigen und dies geschieht durch Multiplikation mit der Umkehrung von.