Wie kann ein Vektor von Variablen eine Hyperebene darstellen?

Ich lese Elemente des statistischen Lernens und auf Seite 12 (Abschnitt 2.3) wird ein lineares Modell wie folgt notiert:

\hat{Y} = X^{T} \hat{β}

$\widehat{Y} = X^{T} \widehat{\beta}$

... wobei die Transponierte eines Spaltenvektors der Prädiktoren / unabhängigen Variablen / Eingaben ist. (Es heißt früher: "Es wird angenommen, dass alle Vektoren Spaltenvektoren sind." Würde dies nicht einem Zeilenvektor und einem Spaltenvektor machen?) $X^{T}$ $X^{T}$ $\widehat{\beta}$

In ist eine " " enthalten, die mit dem entsprechenden Koeffizienten multipliziert wird, der den (konstanten) Achsenabschnitt ergibt. $X$ $1$

Es heißt weiter:

Im -dimensionalen Eingabe-Ausgabe-Raum repräsentiert eine Hyperebene. Wenn die Konstante in , enthält die Hyperebene den Ursprung und ist ein Unterraum. Wenn nicht, handelt es sich um eine affine Menge, die die Achse am Punkt schneidet . $(p + 1)$ $(X,\ \widehat{Y})$ $X$ $Y$ $(0,\ \widehat{\beta_0})$

Beschreibt " " einen Vektor, der durch die Verkettung der Prädiktoren, der " " des Abschnitts und ? Und warum zwingt das Einfügen einer " " in die Hyperebene, den Ursprung zu passieren, sicher, dass " " mit multipliziert werden soll ? $(X,\ \widehat{Y})$ $1$ $\widehat{Y}$ $1$ $X$ $1$ $\widehat{\beta_0}$

Ich verstehe das Buch nicht; Jede Hilfe / Beratung / Links zu Ressourcen wäre sehr dankbar.

regression references statistical-learning

— Scott
quelle

Es könnte hilfreich sein, zuerst zu betrachten . In diesem Fall ist , wobei der Achsenabschnitt ist. Dies ist die Gleichung einer Linie, die durch . Erweiterungen zu höheren Dimensionen sind sofort möglich.

p = 1

$p = 1$

\hat{y} = {\hat{β}}_{0} + x \hat{β}

$\hat{y} = \hat{\beta}_0 + x \hat{\beta}$

β_{0}

$\beta_0$

(0, {\hat{β}}_{0})

$(0, \hat{\beta}_0)$

— Ocram

Wenn die Hilfe von @ocram nicht ausreicht, schreiben Sie die Vektoren auf und multiplizieren Sie sie.

— Peter Flom - Monica wieder einsetzen

Hier ist eine schöne grafische Darstellung: blog.stata.com/2011/03/03/… . Die Notation ist anders, A da ist dein X und x ist .

\hat{β}

$\hat \beta$

— Dimitriy V. Masterov

Das Buch ist falsch oder zumindest inkonsistent. Offensichtlich gibt es Variablen ohne die Konstante. Somit ist die Menge zwar eine Hyperebene, aber es ist falsch zu sagen, dass die Konstante "in " ist. Stattdessen denke ich, dass das Buch sagen soll, dass die Konstante in der Regression enthalten ist, aber dennoch nicht als Teil von . Daher sollte das Modell wirklich geschrieben werden wobei . Das Setzen von gibt sofort die Aussage über den Achsenabschnitt.

p

$p$

{(X, \hat{Y}) | X \in R^{p}}

$\{(X,\hat{Y})|X\in\mathbb{R}^p\}$

X

$X$

X

$X$

\hat{Y} = {\hat{β}}_{0} + X^{'} \hat{β}

$\hat{Y}=\hat\beta_0 + X'\hat\beta$

β = (β_{1}, β_{2}, \dots, β_{p})^{'}

$\beta=(\beta_1,\beta_2,\ldots,\beta_p)'$

X = 0

$X=0$

— whuber

(Wenn wir stattdessen die Konstante in , können wir nicht über alle frei variieren lassen : Es ist beschränkt, innerhalb eines dimensionalen Unterraums zu liegen . Der Graph dann eine Codimension von mindestens und ist somit eigentlich keine "Hyperebene".)

X

$X$

X

$X$

R^{p}

$\mathbb{R}^p$

p - 1

$p-1$

{(X, \hat{Y})}

$\{(X,\hat Y)\}$

2

$2$

— whuber

Antworten:

Sei die Anzahl der Beobachtungen und die Anzahl der erklärenden Variablen. $N$ $K$

$X$ ist eigentlich eine Matrix. Nur wenn wir eine einzelne Beobachtung betrachten, bezeichnen wir jede Beobachtung gewöhnlich als - einen Zeilenvektor erklärender Variablen eines bestimmten Beobachtungsskalars multipliziert mit dem Spaltenvektor . Darüber hinaus ist ein Spaltenvektor, der alle Beobachtungen . $N\!\times\!K$ $x_i^T$ $K\!\times\!1$ $\beta$ $Y$ $N\!\times\!1$ $Y_n$

Nun würde eine zweidimensionale Hyperebene zwischen dem Vektor und einem (!) Spaltenvektor von . Denken Sie daran, dass eine Matrix ist, sodass jede erklärende Variable durch genau einen Spaltenvektor der Matrix . Wenn wir nur eine erklärende Variable haben, keinen Achsenabschnitt und , befinden sich alle Datenpunkte entlang der zweidimensionalen Ebene, die von und überspannt wird . $Y$ $X$ $X$ $N\!\times\!K$ $X$ $Y$ $Y$ $X$

Wie viele Dimensionen hat die Hyperebene zwischen und der Matrix für eine multiple Regression insgesamt ? Antwort: Da wir in Spaltenvektoren erklärender Variablen haben , müssen wir eine dimensionale Hyperebene haben. $Y$ $X$ $K$ $X$ $K\!+\!1$

Normalerweise erfordert die Regression in einer Matrixeinstellung, dass ein konstanter Achsenabschnitt für eine vernünftige Analyse des Steigungskoeffizienten unverzerrt ist. Um diesem Trick Rechnung zu tragen, erzwingen wir, dass eine Spalte der Matrix nur aus " s" besteht. In diesem Fall steht der Schätzer allein multipliziert mit einer Konstanten für jede Beobachtung anstelle einer zufälligen erklärenden Variablen. Der Koeffizient stellt daher den erwarteten Wert von , , wird mit dem Wert 1 festgehalten und alle anderen Variablen sind Null. Daher wird die dimensionale Hyperebene um eine Dimension auf einen dimensionalen Unterraum reduziert , und $X$ $1$ $\beta_1$ $\beta_1$ $Y$ $x_{1i}$ $K\!+\!1$ $K$ $\beta_1$ entspricht dem "Achsenabschnitt" dieser dimensionalen Ebene. $K$

In Matrixeinstellungen ist es immer ratsam, den einfachen Fall von zwei Dimensionen zu betrachten, um zu sehen, ob wir eine Intuition für unsere Ergebnisse finden können. Hier ist es am einfachsten, sich die einfache Regression mit zwei erklärenden Variablen : oder alternativ ausgedrückt in der : wobei ist Matrix.

y_{i} = β_{1} x_{1 i} + β_{2} x_{2 i} + u_{i}

$y_i=\beta_1x_{1i} + \beta_2x_{2i} +u_i$

Y = X β + u

$Y=X\beta +u$

X

$X$

N \times 2

$N\!\times\!2$

$<Y,X>$ überspannt eine dreidimensionale Hyperebene.

Wenn wir nun alle zwingen , alle , erhalten wir: was unsere übliche einfache Regression ist, die in einem zweidimensionalen Diagramm dargestellt werden kann. Beachten Sie, dass jetzt auf eine zweidimensionale Linie reduziert wird - eine Teilmenge der ursprünglich dreidimensionalen Hyperebene. Der Koeffizient entspricht dem Schnittpunkt des Linienschneidens bei . $x_1$ $1$

y_{i} = β_{1 i} + β_{2} x_{2 i} + u_{i}

$y_i=\beta_{1i} + \beta_2x_{2i} + u_i$

X, Y

$X,\ Y$

< Y, X >

$<Y,X>$

β_{1}

$\beta_1$

x_{2 i} = 0

$x_{2i}=0$

Es kann weiter gezeigt werden, dass es auch durchläuft wenn die Konstante enthalten ist . Wenn wir die Konstante weglassen, geht die Regressionshyperebene immer trivial durch - ohne Zweifel. Dies verallgemeinert sich auf mehrere Dimensionen, wie später beim Ableiten von : Da pro Definition den vollen Rang hat, ist , und die Regression geht durch den Ursprung, wenn wir den . $<0,\beta_1>$ $<0,0>$ $\beta$

(X^{'} X) β = X^{'} y ⟹ (X^{'} X) β - X^{'} y = 0 ⟹ X^{'} (y - X β) = 0.

$(X'X)\beta=X'y \implies (X'X)\beta-X'y=0 \implies X'(y-X\beta)=0.$

X

$X$

y - X β = 0

$y-X\beta=0$

( Bearbeiten: Ich habe gerade festgestellt, dass dies für Ihre zweite Frage genau das Gegenteil von dem ist, was Sie über das Ein- oder Ausschließen der Konstante geschrieben haben. Ich habe jedoch bereits die Lösung hier entwickelt und stehe korrigiert, wenn ich mich in dieser Frage irre. )

Ich weiß, dass die Matrixdarstellung einer Regression am Anfang ziemlich verwirrend sein kann, aber letztendlich vereinfacht sie sich sehr, wenn komplexere Algebra abgeleitet wird. Hoffe das hilft ein bisschen.

— Majte
quelle

Ich denke, der Weg, dies zu denken, besteht darin, diese Gleichung neu zu ordnen:

\hat{Y} - X^{T} \hat{β} = 0

$\widehat{Y} - X^{T} \widehat{\beta} = 0$

Die einzige Möglichkeit, diese lineare Gleichung zu erhalten, um den Ursprung besteht darin, das vorhergesagte gleich dem Achsenabschnitt zu machen. Um diesen Wert zu schätzen, muss ein Intercept-Term in das Regressionsmodell aufgenommen werden.

\hat{Y}

$\widehat{Y}$

— DWin
quelle