Wahrscheinlichkeit bei linearer Regression

Ich versuche zu verstehen, wie Menschen die Wahrscheinlichkeit für eine einfache lineare Regression ableiten. Nehmen wir an, wir haben nur ein Merkmal x und das Ergebnis y. Ich bezweifle nicht den Ausdruck mit der normalen Dichte selbst und ich bezweifle auch nicht, dass man das Produkt aufgrund der Unabhängigkeit in einfachere Faktoren zerlegen kann. Ich bezweifle, wie Menschen diesen Ausdruck ableiten. Es scheint einen ganzen Zoo von (teilweise falschen) Annahmen über die Eingabe zu geben, und fast überall wird der kritische Schritt (Name, wie man das Produkt normaler Dichten ableitet), bei dem man tatsächlich die richtigen Annahmen verwenden muss, weggelassen :-(

Was ich für selbstverständlich halte, ist Folgendes: Wir erhalten einen festen Trainingssatz $(x_i, y_i)_{i=1,2,...,n}$ und nehme das an

die Paare $(x_i, y_i)$ im festen Trainingssatz der Länge $n$ kommen aus Zufallsvariablen $(X_i, Y_i)$ das sind iid verteilt
$Y_i = \beta_0 X_i + \epsilon_i$
das $\epsilon_i$ sind eindimensionale iid-Zufallsvariablen, die jeweils als verteilt sind $\mathcal{N}(0, \sigma)$ mit $\sigma$ bekannt (um zu vereinfachen) (vielleicht sollte man etwas über die bedingte Dichte annehmen $f_{\epsilon_i|X_i}$ Hier? Die Leute scheinen sich nicht sicher zu sein, was sie hier tatsächlich annehmen sollen ...)

Lassen $Y = (Y_1, ..., Y_n)$ und lass $X = (X_1, ..., X_n)$ . Ziel ist es nun, die bedingte Dichte zu bestimmen $f_{Y|X} = \frac{f_{(Y,X)}}{f_X}$ . Deutlich,

f_{Y | X} = \prod_{i = 1}^{n} f_{Y_{i} | X_{i}}

$f_{Y|X} = \prod_{i=1}^n f_{Y_i|X_i}$

Frage:

Wie gehe ich von hier aus vor?

Ich sehe nicht, wie die Annahmen Informationen geben $f_{(Y_i, X_i)}$ oder ungefähr $f_{X_i}$ deshalb kann ich diese Menge einfach nicht berechnen $f_{Y_i|X_i} = \frac{f_{(Y_i, X_i)}}{f_{X_i}}$ . Einige Leute könnten das auch denken $Y_i = \beta_0 X_i + \epsilon_i$ und $\epsilon_i$ normal verteilt (oder $\epsilon_i|X_i$ normalverteilt) bedeutet das auch $Y_i|X$ ist normal verteilt, aber ...

Es gibt eine Anweisung für normalverteilte Zufallsvariablen, die jedoch folgendermaßen lautet: If $X$ ist normal verteilt und $A, B$ sind dann feste Matrizen $AX+B$ wird normalerweise wieder verteilt. Im obigen Fall $B$ ist $\beta_0 X_i$ Das ist keine konstante Matrix.

Andere Quellen scheinen zu übernehmen , dass $f_{Y_i|X_i}$ wird normalerweise sofort verteilt. Dies scheint eine seltsame Annahme zu sein ... wie sollten wir das jemals an einem realen Datensatz testen können?

Grüße + danke,

— Fabian Werner
quelle

Es gibt Probleme in Ihrem Setup. Zum Beispiel die Aussage "Zufallsvariablen

(X_{i}, Y_{i})

$(X_i, Y_i)$ die iid verteilt sind "ist in der Regel falsch. Zumindest

X_{i}

$X_i$ haben normalerweise unterschiedliche Mittel, also sind sie nicht nur aus diesen Gründen iid.

— Aksakal

Obwohl Sie behaupten, Sie hätten nichts über die gemeinsame Verteilung angenommen, haben Sie in (2) und (3) eindeutig eine extrem starke Annahme darüber gemacht.

— whuber

@whuber: Die Frage ist nicht, ob eine lineare Regression ein gutes Modell ist oder nicht ... selbst wenn Sie eine SVM berechnen, machen Sie implizit sehr starke Annahmen über die Verteilungen ... da Sie nicht den bayesianischen Weg gehen, den Sie in der verstecken Formeln aber. Die Frage ist: Angesichts der Tatsache, dass die lineare Regression ein gutes Modell ist, wie kann ich die Formel tatsächlich zusammenstellen, um die Parameter zu berechnen :-)

— Fabian Werner

@Aksakal: Ich verstehe nicht, wovon du sprichst, es tut mir leid ... Dies scheint eine eher philosophische Diskussion zu sein: die

X_{i}

$X_i$ haben den gleichen Mittelwert, die in fast allen Setups beim maschinellen Lernen identisch verteilt sind. Was meinst du mit "sie haben nicht den gleichen Mittelwert"?

— Fabian Werner

@Aksakal: Zum Beispiel: Hängt das Alter eines festen Individuums bei einer Gruppe zufällig ausgewählter Personen vom Alter der anderen ab? Kaum eine Chance, Mitglieder derselben Familie auszuwählen, ist gering ...

— Fabian Werner

Antworten:

Die Schlüsselannahme abzuleiten $f_{Y_i|X_i}$ ist, dass das Rauschen unabhängig vom Eingang ist, das heißt $\epsilon_i$ ist unabhängig von $X_i$ . Sie müssen nichts über die Verteilung von wissen oder annehmen $X_i$ .

Sie beginnen mit:

f_{Y_{i} | X_{i}} (x, y) = p (Y_{i} = y | X_{i} = x) = p (β_{0} x + ϵ_{i} = y | X_{i} = x) = p (ϵ_{i} = y - β_{0} x | X_{i} = x)

$f_{Y_i|X_i}(x,y)=p(Y_i=y|X_i=x)=p(\beta_0x+\epsilon_i=y|X_i=x)=p(\epsilon_i=y-\beta_0x|X_i=x)$

Nun wird die Unabhängigkeitsannahme verwendet, da $\epsilon_i$ ist unabhängig von $X_i$ , seine Dichte gegeben einen Wert von $X_i$ ist einfach seine Dichte:

p (ϵ_{i} = y - β_{0} x | X_{i} = x) = p (ϵ_{i} = y - β_{0} x) = . . . e^{(y - β_{0} x)^{2} / 2 σ^{2}}

$p(\epsilon_i=y-\beta_0x|X_i=x)=p(\epsilon_i=y-\beta_0x)=...e^{(y-\beta_0x)^2/2\sigma^2}$

Man könnte alternativ sagen, dass die Verteilung des Rauschens bedingt ist $X_i$ ist normal mit einer konstanten Varianz (und einem Mittelwert von 0) bei einem beliebigen Wert von $X_i$ . Darauf kommt es wirklich an. Dies entspricht jedoch genau der üblichen Annahme:

$\epsilon_i$ ist unabhängig von $X_i$
$\epsilon_i$ ist normalverteilt (mit Mittelwert 0)

— Benoit Sanchez
quelle

Sehr gute Antwort, danke !!! Ich habe jedoch immer noch Probleme mit Folgendem: Wie schließen Sie daraus?

p (ϵ = y - β_{0} X | X = x) = p (ϵ = y - β_{0} x | X = x)

$p(\epsilon = y - \beta_0 X | X=x) = p(\epsilon = y - \beta_0 x | X=x)$ , dh warum glauben Sie, dass die Konditionierung auf eine Zufallsvariable bei der Einstellung von Dichten (nicht bedingte Erwartungswerte und dergleichen) nur durch den konkreten Wert ersetzt wird?

— Fabian Werner

Mit diskreten Variablen ist es einfacher zu sehen, da Sie sich direkt mit einfachen bedingten Wahrscheinlichkeiten von Ereignissen befassen.

P (Y = f (X) | X = x) = P (Y = f (X) and X = x) / P (X = x)

$P(Y=f(X)|X=x)=P(Y=f(X)\text{ and }X=x)/P(X=x)$ . Schließlich muss man nur noch beachten, dass als Ereignisse (Mengen),

(Y = f (X) and X = x) = (Y = f (x) and X = x)

$(Y=f(X)\text { and }X=x)=(Y=f(x)\text { and }X=x)$ . Es ist nur Logik. Die gleiche Idee gilt für Dichten.

— Benoit Sanchez

Schließlich funktioniert es ja wie Ersatz.

— Benoit Sanchez

Dank der Antwort von Benoit Sanchez verstand ich es endlich (wurde aber auf den falschen Weg einer Ersatzregel für bedingte Dichten gebracht). Die Antwort lautet wie folgt:

Das muss man annehmen

Die Paare $(x_i, y_i)$ kommen aus Zufallsvariablen $(X_i, Y_i)$ so dass die Variablen $Z_i = (X_i, Y_i)$ sind unabhängig
$Y_i = \beta_0 X_i + \epsilon_i$
Das $\epsilon_i$ sind iid. $N(0,\sigma)$ verteilt
$\epsilon_i$ ist unabhängig von $X_i$ (Der Fehler geht mit der Funktion nicht hoch oder runter, hat aber nichts damit zu tun.)
$X = (X_1, ..., X_n)$ und $Y = (Y_1, ..., Y_n)$ haben eine gemeinsame Dichte $f_{X,Y}$ . Insbesondere alle $(X_i, Y_i)$ haben gemeinsame Dichten $f_{X_i, Y_i}$ .

Man braucht die folgende einfache Beobachtung: Gegeben $n$ reelle Zufallsvariablen $Z_1, ..., Z_n$ mit einer gemeinsamen Dichte $f_{Z_1, ..., Z_n}$ und Bijektion $\Phi : \mathbb{R}^n \to \mathbb{R}^n$ so dass $\Phi$ und $\Phi^{-1}$ sind dann differenzierbar

f_{Φ (Z_{1}, . . ., Z_{n})} (z_{1}, . . ., z_{n}) = | det (\partial Φ^{- 1}) | f_{Z_{1}, . . ., Z_{n}} (Φ^{- 1} (z_{1}, . . ., z_{n}))

$f_{\Phi(Z_1, ..., Z_n)}(z_1, ..., z_n) = |\det(\partial \Phi^{-1})| f_{Z_1, ..., Z_n}(\Phi^{-1}(z_1, ..., z_n))$ dh die Dichte der transformierten Zufallsvariablen ist die alte Dichte, die an einem transformierten Punkt ausgewertet wird.

Die Schlüsselbeobachtung ist, dass die zweidimensionale Zufallsvariable $(Y_i, X_i)$ ist eine einfache Transformation von $(\epsilon_i, X_i)$ nämlich

(Y_{i}, X_{i}) = Φ (ϵ_{i}, X_{i})

$(Y_i, X_i) = \Phi(\epsilon_i, X_i)$ wo

Φ (e, x) = (e + β_{0} x, x)

$\Phi(e, x) = (e + \beta_0 x, x)$ . Wir haben

Φ^{- 1} (y, x) = (y - β_{0} x, x)

$\Phi^{-1}(y, x) = (y - \beta_0 x, x)$ . Seine Differentialmatrix ist

\partial Φ^{- 1} = (\begin{matrix} 1 & β_{0} \\ 0 & 1 \end{matrix})

$\partial \Phi^{-1} = \begin{pmatrix}1 & \beta_0 \\ 0 & 1 \end{pmatrix}$ das ist von bestimmender.

Nun wenden wir die Beobachtung auf diese Situation an und erhalten

f_{Y_{i}, X_{i}} (y, x) = f_{Φ (ϵ_{i}, X_{i})} (y, x) = 1 \cdot f_{ϵ_{i}, X_{i}} (Φ^{- 1} (y, x)) = f_{ϵ_{i}, X_{i}} (y - β_{0} x, x)

$f_{Y_i, X_i}(y,x) = f_{\Phi(\epsilon_i, X_i)}(y, x) = 1 \cdot f_{\epsilon_i, X_i}(\Phi^{-1}(y, x)) = f_{\epsilon_i, X_i}(y - \beta_0 x, x)$

Jetzt $\epsilon_i$ ist unabhängig von $X_i$ durch Annahme daher

f_{Y_{i}, X_{i}} (y, x) = f_{ϵ_{i}} (y - β_{0} x) f_{X} (x)

$f_{Y_i, X_i}(y,x) = f_{\epsilon_i}(y - \beta_0 x) f_X(x)$ oder eher

f_{Y_{i} | X_{i}} (y | x) = \frac{f_{ϵ_{i}} (y - β_{0} x) f_{X} (x)}{f_{X} (x)} = f_{ϵ_{i}} (y - β_{0} x)

$f_{Y_i| X_i}(y|x) = \frac{f_{\epsilon_i}(y - \beta_0 x) f_X(x)}{f_X(x)} = f_{\epsilon_i}(y - \beta_0 x)$ und daraus (und aus

f_{Y, X} = \prod_{i} f_{Y_{i}, X_{i}}

$f_{Y, X} = \prod_{i} f_{Y_i, X_i}$ durch die Unabhängigkeitsannahme erhält man die üblichen Wahrscheinlichkeitsgleichungen.

Ich bin jetzt glücklich :-)

— Fabian Werner
quelle