Warum sind die Regressionsmethoden Least-Squares und Maximum-Likelihood nicht gleichwertig, wenn die Fehler nicht normal verteilt sind?

11

Titel sagt alles. Ich verstehe, dass die kleinsten Quadrate und die maximale Wahrscheinlichkeit das gleiche Ergebnis für Regressionskoeffizienten liefern, wenn die Fehler des Modells normal verteilt sind. Aber was passiert, wenn die Fehler nicht normal verteilt sind? Warum sind die beiden Methoden nicht mehr gleichwertig?

— Shuklaswag
quelle

Meinen Sie (a) die Verwendung von MLE, wenn die Annahme der Normalität nicht erfüllt ist, oder (b) die Verwendung der nicht-Gaußschen Wahrscheinlichkeitsfunktion?

— Tim

(a), wenn die Annahme der Normalität nicht erfüllt ist

— Shuklaswag

Selbst wenn die Annahme nicht erfüllt ist (dh die beobachteten Werte sind nicht Gauß-verteilt) ... Wenn Sie den MLE unter Verwendung der Gauß-Wahrscheinlichkeitsfunktion berechnen, tun Sie dasselbe wie die Optimierung der kleinsten Quadrate. Die Optimierungsmethoden sind mathematisch äquivalent und unabhängig davon, ob die Annahme der Normalität richtig war oder nicht.

— Sextus Empiricus

Selbst bei Normalverteilungen führen die kleinsten Quadrate zu einer festen Varianz.

— CodesInChaos

Siehe auch diese verwandte Frage: stats.stackexchange.com/questions/173621/…

— kjetil b halvorsen

16

Kurze Antwort

Die Wahrscheinlichkeitsdichte eines multivariaten gaußverteiltes variable $x=(x_1, x_2,...,x_n)$ , mit einem Mittelwert $\mu=(\mu_1,\mu_2,...,\mu_n)$ zu dem Quadrat der verwandte der euklidische Abstand zwischen dem Mittelwert und der Variablen ( $\vert \mu-x \vert_2^2$ ) oder mit anderen Worten die Summe der Quadrate.

Lange Antwort

Wenn Sie mehrere Gaußsche Verteilungen für Ihre $n$ Fehler multiplizieren , wobei Sie gleiche Abweichungen annehmen, erhalten Sie eine Summe von Quadraten.

\begin{array}{cl} L. (μ_{j}, x_{ich j}) = P. (x_{ich j} | μ_{j}) & = \prod_{ich = 1}^{n} \frac{1}{\sqrt{2 π σ^{2}}} e x p [- - \frac{(x_{ich j} - - μ_{ich})^{2}}{2 σ^{2}}]] \\ = {(\frac{1}{\sqrt{2 π σ^{2}}})}^{n} e x p [- - \frac{\sum_{ich = 1}^{n} (x_{ich j} - - μ_{ich})^{2}}{2 σ^{2}}]] \end{array}

$\begin{array} \mathcal{L(\mu_j,x_{ij})} = P(x_{ij} \vert \mu_j) & =\prod_{i=1}^n \frac{1}{\sqrt{2 \pi \sigma^2}} exp\left[-\frac{(x_{ij}-\mu_i)^2}{2\sigma^2}\right] \\ &= \left(\frac{1}{\sqrt{2 \pi \sigma^2}} \right)^n exp \left[ -\frac{\sum_{i=1}^n(x_{ij}-\mu_i)^2}{2\sigma^2}\right] \end{array}$

oder in der bequemen logarithmischen Form:

Log (L. (μ_{j}, x_{ich j})) = n Log (\frac{1}{\sqrt{2 π σ^{2}}}) - - \frac{1}{2 σ^{2}} \sum_{ich = 1}^{n} (x_{ich j} - - μ_{j})^{2}

$\log\left(\mathcal{L(\mu_j,x_{ij})} \right) = n \log \left( \frac{1}{\sqrt{2 \pi \sigma^2}} \right) -\frac{1}{2\sigma^2} \sum_{i=1}^n(x_{ij}-\mu_j)^2$

Die Optimierung des $\mu$ zur Minimierung der Quadratsumme entspricht also der Maximierung der (logarithmischen) Wahrscheinlichkeit (dh des Produkts mehrerer Gaußscher Verteilungen oder der multivariaten Gaußschen Verteilung).

Es ist dieses verschachtelte Quadrat der Differenz $(\mu-x)$ innerhalb der Exponentialstruktur $exp\left[ (x_i-\mu)^2 \right]$ , das andere Verteilungen nicht haben.

Vergleichen Sie zum Beispiel mit dem Fall für Poisson-Verteilungen

Log (L.) = Log (\prod \frac{μ_{j}^{x_{ich j}}}{x_{ich j}!} e x p [- - μ_{j}]]) = - - \sum μ_{j} - - \sum l Ö G (x_{ich j}!) + \sum l Ö G (μ_{j}) x_{ich j}

$\log(\mathcal{L}) = \log \left( \prod\frac{\mu_j^{x_{ij}}}{x_{ij}!} exp \left[ -\mu_j \right] \right) = -\sum \mu_j -\sum log(x_{ij}!) + \sum log(\mu_j) x_{ij}$

Das hat ein Maximum, wenn Folgendes minimiert wird:

\sum μ_{j} - l o g (μ_{j}) x_{i j}

$\sum \mu_j -log(\mu_j) x_{ij}$

Das ist ein anderes Tier.

Zusätzlich (Geschichte)

Die Historie der Normalverteilung (wobei deMoivre ignoriert wird, um diese Verteilung als Annäherung für die Binomialverteilung zu erhalten) ist tatsächlich die Entdeckung der Verteilung, die die MLE der Methode der kleinsten Quadrate entspricht (und nicht der Methode der kleinsten Quadrate als Methode das kann die MLE der Normalverteilung ausdrücken, zuerst kam die Methode der kleinsten Quadrate, zweitens kam die Gaußsche Verteilung)

Beachten Sie, dass Gauß, der die 'Methode der maximalen Wahrscheinlichkeit' mit der 'Methode der kleinsten Quadrate' verbindet, die 'Gaußsche Verteilung' $e^{-x^2}$ als einzige Fehlerverteilung gefunden hat, die uns dazu führt, diese Verbindung zwischen herzustellen die beiden Methoden.

Aus der Übersetzung von Charles Henry Davis (Theorie der Bewegung der Himmelskörper, die sich in konischen Abschnitten um die Sonne bewegen. Eine Übersetzung von Gauß '"Theoria motus" mit Anhang) ...

Gauß definiert:

Dementsprechend wird die Wahrscheinlichkeit , jedem Fehler $\Delta$ ; zugeordnet zu werden, durch eine Funktion von $\Delta$ ausgedrückt, die wir mit $\psi \Delta$ Dgr; bezeichnen werden .

^{(Kursivierung von mir gemacht)}

Und fährt fort ( in Abschnitt 177, S. 258 ):

$\frac{\psi^\prime\Delta}{\Delta}$ $k$
$log ψ Δ = \frac{1}{2} k Δ Δ + Constant$ $\text{log } \psi \Delta = \frac{1}{2} k \Delta \Delta + \text{Constant}$ $ψ Δ = x e^{\frac{1}{2} k Δ Δ}$ $\psi \Delta = x e^{\frac{1}{2}k \Delta \Delta}$ $e$ $Constant = \log x$ $\text{Constant} = \log x$

$k<0$

$ψ Δ = \frac{h}{\sqrt{π}} e^{- h h Δ Δ}$ $\psi \Delta = \frac{h}{\sqrt{\pi}} e^{-hh\Delta \Delta}$

Geschrieben von StackExchangeStrike

— Sextus Empiricus
quelle

Erinnerst du dich, woher du dieses Wissen hast? Würde es Ihnen etwas ausmachen, die Quelle zu Ihrem Beitrag hinzuzufügen? (Es fällt mir schwer, ein Lehrbuch zu finden, das dies gut erklärt.)

— Joooeey

@Joooeey Ich habe den Titel der Quelle für die übersetzten Zitate von Gauß sowie einen Link zu einer von vielen Online-Quellen hinzugefügt. Dieser Originaltext ist schwer, aber Sie sollten in jeder Beschreibung der Geschichte der Normalverteilung auf leichtere Verträge stoßen.

— Sextus Empiricus

Die Wahrscheinlichkeitsfunktionen tauchen an vielen Stellen auf. Wenn Sie nach Quellen suchen, aus denen ich dieses „Wissen“ habe, dann könnte ich wohl Pearsons Artikel von 1900 über den Chi-Quadrat-Test sagen, bei dem die multivariate Normalverteilung geometrisch behandelt wird. Auch Fisher verwendete mehrmals geometrische Darstellungen (es gibt zum Beispiel diesen einen Artikel in den 20er Jahren über die Effizienz von Schätzungen, in dem er den mittleren quadratischen Fehler und den mittleren absoluten Fehler vergleicht und über Oberflächen in einem Hyperraum spricht).

— Sextus Empiricus

@Joooeey Ich habe hier zuvor auf diesen Fisher-Artikel verwiesen . Und meine Antwort hier verwendet einen geometrischen Gesichtspunkt, um eine Eigenschaft der t-Verteilung abzuleiten, die sich auch auf Fisher bezieht (ich glaube, der Artikel, in dem er Gossets t-Verteilung beweist, oder vielleicht ein etwas späterer Artikel).

— Sextus Empiricus

5

Weil die MLE aus der Annahme eines normalverteilten Residuums abgeleitet wird.

Beachten Sie, dass

{min}_{β} ‖ X β - y ‖^{2}

$\text{min}_\beta~~ \|X \beta - y \|^2$

$\beta$

Woher das Konzept von Wahrscheinlichkeit und Wahrscheinlichkeit kommt, nehmen wir an

y = X β + ϵ

$y=X\beta + \epsilon$

$y$ $\epsilon$

— Haitao Du
quelle

@ Matthew Drury, warum die Matrixnotation ändern und das Summenzeichen hinzufügen?

— Haitao Du

Ich dachte, es wäre klar, aber wenn Sie behaupten, dass eine Aussage keine probalistische Bedeutung hat, können Sie keinen Ausdruck mit Symbolen verwenden, die am besten als Zufallsvariablen interpretiert werden. Das Optimierungsproblem, auf das Sie sich beziehen, bezieht sich auf feste Daten, das habe ich explizit gemacht.

— Matthew Drury

5

Die kleinsten Quadrate und die maximale (Gaußsche) Wahrscheinlichkeitsanpassung sind immer äquivalent. Das heißt, sie werden durch denselben Satz von Koeffizienten minimiert.

Wenn Sie die Annahme der Fehler ändern, ändert sich Ihre Wahrscheinlichkeitsfunktion (das Maximieren der Wahrscheinlichkeit eines Modells entspricht dem Maximieren der Wahrscheinlichkeit des Fehlerterms), und daher wird die Funktion nicht mehr durch denselben Koeffizientensatz minimiert.

In der Praxis sind die beiden also gleich, aber wenn Sie theoretisch eine andere Wahrscheinlichkeit maximieren, erhalten Sie eine andere Antwort als die kleinsten Quadrate

— Sam
quelle

"oder immer gleichwertig"?

— nbro

0

Ein konkretes Beispiel: Nehmen wir an, wir nehmen eine einfache Fehlerfunktion p (1) =. 9, p (-9) = .10. Wenn wir zwei Punkte nehmen, wird LS nur die Linie durch sie ziehen. ML hingegen geht davon aus, dass beide Punkte eine Einheit zu hoch sind, und nimmt daher die Linie durch die auf der Einheit nach unten verschobenen Punkte.

— Akkumulation
quelle

2

Ihr Beispiel ist unklar; Insbesondere ist es schwierig zu erkennen, welches Modell Sie beschreiben möchten oder warum ML das von Ihnen behauptete Ergebnis erzielen würde. Könnten Sie diese Antwort näher erläutern?

— whuber

Das Modell ist, dass y = mx + b + Fehler ist, wobei Fehler eine 90% ige Chance von +1 und eine 10% ige Chance von -9 haben. Bei jedem beobachteten Punkt hat der wahre Punkt eine Wahrscheinlichkeit von 90%, eine Einheit darunter zu liegen, und eine Wahrscheinlichkeit von 10%, neun Einheiten darüber zu liegen. Daher gibt ML an, dass der wahre Punkt eine Einheit darunter liegt. Was verstehst du nicht darüber?

— Akkumulation

2

Ihr Kommentar ist hilfreich, aber Ihre Antwort beschreibt das Modell immer noch nicht klar oder verständlich. Könnten Sie diese Erklärung in die Antwort selbst aufnehmen? Es ist ein schönes Beispiel.

— whuber