Sei die Anzahl der Beobachtungen und die Anzahl der erklärenden Variablen.K.NK
N.X ist eigentlich eine Matrix. Nur wenn wir eine einzelne Beobachtung betrachten, bezeichnen wir jede Beobachtung gewöhnlich als - einen Zeilenvektor erklärender Variablen eines bestimmten Beobachtungsskalars multipliziert mit dem Spaltenvektor . Darüber hinaus ist ein Spaltenvektor, der alle Beobachtungen .N×KxTiK×1βYN×1Yn
Nun würde eine zweidimensionale Hyperebene zwischen dem Vektor und einem (!) Spaltenvektor von . Denken Sie daran, dass eine Matrix ist, sodass jede erklärende Variable durch genau einen Spaltenvektor der Matrix . Wenn wir nur eine erklärende Variable haben, keinen Achsenabschnitt und , befinden sich alle Datenpunkte entlang der zweidimensionalen Ebene, die von und überspannt wird .YXXN×KXYYX
Wie viele Dimensionen hat die Hyperebene zwischen und der Matrix für eine multiple Regression insgesamt ? Antwort: Da wir in Spaltenvektoren erklärender Variablen haben , müssen wir eine dimensionale Hyperebene haben.YXKXK+1
Normalerweise erfordert die Regression in einer Matrixeinstellung, dass ein konstanter Achsenabschnitt für eine vernünftige Analyse des Steigungskoeffizienten unverzerrt ist. Um diesem Trick Rechnung zu tragen, erzwingen wir, dass eine Spalte der Matrix nur aus " s" besteht. In diesem Fall steht der Schätzer allein multipliziert mit einer Konstanten für jede Beobachtung anstelle einer zufälligen erklärenden Variablen. Der Koeffizient stellt daher den erwarteten Wert von , , wird mit dem Wert 1 festgehalten und alle anderen Variablen sind Null. Daher wird die dimensionale Hyperebene um eine Dimension auf einen dimensionalen Unterraum reduziert , undX1β1β1Yx1iK+1Kβ1 entspricht dem "Achsenabschnitt" dieser dimensionalen Ebene.K
In Matrixeinstellungen ist es immer ratsam, den einfachen Fall von zwei Dimensionen zu betrachten, um zu sehen, ob wir eine Intuition für unsere Ergebnisse finden können. Hier ist es am einfachsten, sich die einfache Regression mit zwei erklärenden Variablen :
oder alternativ ausgedrückt in der : wobei ist Matrix.
yi=β1x1i+β2x2i+ui
Y=Xβ+uXN×2
<Y,X> überspannt eine dreidimensionale Hyperebene.
Wenn wir nun alle zwingen , alle , erhalten wir:
was unsere übliche einfache Regression ist, die in einem zweidimensionalen Diagramm dargestellt werden kann. Beachten Sie, dass jetzt auf eine zweidimensionale Linie reduziert wird - eine Teilmenge der ursprünglich dreidimensionalen Hyperebene. Der Koeffizient entspricht dem Schnittpunkt des Linienschneidens bei .x11
yi=β1i+β2x2i+ui
X, Y<Y,X>β1x2i=0
Es kann weiter gezeigt werden, dass es auch durchläuft wenn die Konstante enthalten ist . Wenn wir die Konstante weglassen, geht die Regressionshyperebene immer trivial durch - ohne Zweifel. Dies verallgemeinert sich auf mehrere Dimensionen, wie später beim Ableiten von :
Da pro Definition den vollen Rang hat, ist , und die Regression geht durch den Ursprung, wenn wir den .<0,β1><0,0>βX y - X β = 0
(X′X)β=X′y⟹(X′X)β−X′y=0⟹X′(y−Xβ)=0.
Xy−Xβ=0
( Bearbeiten: Ich habe gerade festgestellt, dass dies für Ihre zweite Frage genau das Gegenteil von dem ist, was Sie über das Ein- oder Ausschließen der Konstante geschrieben haben. Ich habe jedoch bereits die Lösung hier entwickelt und stehe korrigiert, wenn ich mich in dieser Frage irre. )
Ich weiß, dass die Matrixdarstellung einer Regression am Anfang ziemlich verwirrend sein kann, aber letztendlich vereinfacht sie sich sehr, wenn komplexere Algebra abgeleitet wird. Hoffe das hilft ein bisschen.