Wie verwendet die lineare Regression die Normalverteilung?

26

Bei der linearen Regression wird angenommen, dass jeder vorhergesagte Wert aus einer Normalverteilung möglicher Werte ausgewählt wurde. Siehe unten.

Aber warum wird angenommen, dass jeder vorhergesagte Wert aus einer Normalverteilung stammt? Wie verwendet die lineare Regression diese Annahme? Was ist, wenn mögliche Werte nicht normalverteilt sind?

Bildbeschreibung hier eingeben

— Luciano
quelle

2

Nur die Fehler folgen einer Normalverteilung (was impliziert, dass die bedingte Wahrscheinlichkeit von Y bei gegebenem X auch normal ist). Dies ist wahrscheinlich aus Gründen des zentralen Grenzwertsatzes traditionell. Sie können jedoch die Normale durch eine beliebige symmetrische Wahrscheinlichkeitsverteilung ersetzen und die gleichen Koeffizientenschätzungen über die kleinsten Quadrate erhalten. Was sich jedoch unterscheidet, sind der verbleibende Standardfehler, die Anpassungsgüte und die Art und Weise, wie Sie die Annahmen validieren.

— Kian

4

Normale Annahmen spielen hauptsächlich eine Rolle - Hypothesentests, CIs, PIs. Wenn Sie andere Annahmen treffen, sind diese zumindest in kleinen Stichproben unterschiedlich.

— Glen_b -Reinstate Monica

7

Übrigens sollte Ihr Diagramm für eine normale lineare Regression die normalen Kurven vertikal und nicht diagonal zeichnen.

— Glen_b -Reinstate Monica

29

Die lineare Regression an sich benötigt nicht die normale (Gauß'sche) Annahme, die Schätzer können (durch lineare kleinste Quadrate) berechnet werden, ohne dass eine solche Annahme erforderlich ist, und sind ohne diese Annahme vollkommen sinnvoll.

Als Statistiker wollen wir jedoch einige der Eigenschaften dieser Methode verstehen und Antworten auf folgende Fragen geben: Sind die Schätzer der kleinsten Quadrate in gewissem Sinne optimal ? Oder können wir es mit alternativen Schätzern besser machen? Dann können wir unter der normalen Verteilung von Fehlertermen zeigen, dass diese Schätzer tatsächlich optimal sind, zum Beispiel "unabhängig von der minimalen Varianz" oder der maximalen Wahrscheinlichkeit. Ohne die normale Annahme kann so etwas nicht bewiesen werden.

Wenn wir Konfidenzintervalle oder Hypothesentests konstruieren (und deren Eigenschaften analysieren) möchten, verwenden wir die normale Annahme. Aber wir könnten Konfidenzintervalle stattdessen auf andere Weise konstruieren, beispielsweise durch Bootstrapping. Dann verwenden wir nicht die normale Annahme, aber leider könnten wir ohne diese Annahme andere Schätzer als die kleinsten Quadrate verwenden, vielleicht einige robuste Schätzer?

In der Praxis ist die Normalverteilung natürlich allenfalls eine zweckmäßige Fiktion. Die wirklich wichtige Frage ist also, wie nah wir an der Normalität sein müssen, um behaupten zu können, die oben genannten Ergebnisse zu verwenden. Das ist eine viel schwierigere Frage! Optimalitätsergebnisse sind nicht robust , sodass selbst eine sehr kleine Abweichung von der Normalität die Optimalität zerstören kann. Das ist ein Argument für robuste Methoden. Für einen anderen Ansatz zu dieser Frage siehe meine Antwort auf Warum sollten wir t-Fehler anstelle von normalen Fehlern verwenden?

Eine weitere relevante Frage ist, warum die Normalität von Residuen für die Schätzung der Regressionsgeraden "überhaupt nicht wichtig" ist.

 EDIT

Diese Antwort führte zu einer großen Diskussion in Kommentaren, die wiederum zu meiner neuen Frage führte: Lineare Regression: Gibt es eine nicht normale Verteilung, die die Identität von OLS und MLE angibt? die nun endlich (drei) Antworten erhielten und Beispiele gaben, bei denen nicht-normale Verteilungen zu Schätzern der kleinsten Quadrate führten.

— kjetil b halvorsen
quelle

Der Fehler der kleinsten Quadrate entspricht einer normalen Annahme.

— Neil G

4

Es gibt keinen solchen Widerspruch. Zum Beispiel besagt das Gauß-Markov-Theorem, dass die linearen kleinsten Quadrate unter allen linearen Schätzern optimal sind (im Sinne der geringsten Varianz), ohne dass Verteilungsannahmen erforderlich sind (abgesehen von der vorhandenen Varianz). Least Squares ist eine numerische Prozedur, die unabhängig von jedem Wahrscheinlichkeitsmodell definiert werden kann! Das Wahrscheinlichkeitsmodell wird dann verwendet, um dieses Verfahren aus einer statistischen Perspektive zu analysieren.

— kjetil b halvorsen

2

@NeilG MLE für die Normalen sind sicherlich die kleinsten Quadrate, aber das bedeutet nicht, dass die kleinsten Quadrate eine Normalitätsannahme beinhalten müssen. Andererseits können große Abweichungen von der Normalität dazu führen, dass die kleinsten Quadrate eine schlechte Wahl sind (wenn alle linearen Schätzer schlecht sind).

— Glen_b -Reinstate Monica

1

@NeilG Was ich dort gesagt habe, bedeutet in keiner Weise, dass LS und Normalität gleichwertig sind, aber Sie sagen ausdrücklich, dass sie gleichwertig sind, und ich glaube wirklich nicht, dass unsere beiden Aussagen auch nur tautologisch nahe kommen.

— Glen_b

1

@Neil Kannst du zeigen, wie deine Aussage tatsächlich impliziert, was ich gesagt habe? Ich sehe es wirklich nicht.

— Glen_b

3

Diese Diskussion Was ist, wenn Residuen normal verteilt sind, y jedoch nicht? hat diese Frage gut angesprochen.

Kurz gesagt, für ein Regressionsproblem nehmen wir nur an, dass die Antwort normal ist, abhängig vom Wert von x. Es ist nicht erforderlich, dass die unabhängigen Variablen oder Antwortvariablen unabhängig sind.

— enaJ
quelle

1

Aber warum wird angenommen, dass jeder vorhergesagte Wert aus einer Normalverteilung stammt?

Es gibt keinen wichtigen Grund dafür, und es steht Ihnen frei, die Verteilungsannahmen zu ändern, zu GLMs überzugehen oder zu einer robusten Regression überzugehen. Die LM (Normalverteilung) ist beliebt, weil sie einfach zu berechnen, recht stabil und Residuen in der Praxis oft mehr oder weniger normal sind.

Wie verwendet die lineare Regression diese Annahme?

Wie bei jeder Regression sucht das lineare Modell (= Regression mit normalem Fehler) nach den Parametern, die die Wahrscheinlichkeit für die gegebene Verteilungsannahme optimieren. Sehen Sie hier ein Beispiel für eine explizite Berechnung der Wahrscheinlichkeit für ein lineares Modell. Wenn Sie die logarithmische Wahrscheinlichkeit eines linearen Modells nehmen, stellt sich heraus, dass es proportional zur Summe der Quadrate ist, und die Optimierung davon kann ziemlich bequem berechnet werden.

Was ist, wenn mögliche Werte nicht normalverteilt sind?

Wenn Sie ein Modell mit unterschiedlichen Verteilungen anpassen möchten, sind die nächsten Schulungsschritte verallgemeinerte lineare Modelle (GLM), die unterschiedliche Verteilungen bieten, oder allgemeine lineare Modelle, die noch normal sind, aber die Unabhängigkeit verringern. Viele andere Optionen sind möglich. Wenn Sie nur die Auswirkung von Ausreißern reduzieren möchten, können Sie beispielsweise eine robuste Regression in Betracht ziehen.

— Florian Hartig
quelle

0

Nachdem Sie die Frage noch einmal durchgesehen haben, gibt es meines Erachtens keinen Grund, die Normalverteilung zu verwenden, es sei denn, Sie möchten eine Art Rückschluss auf den Regressionsparameter ziehen. Außerdem können Sie eine lineare Regression anwenden und die Verteilung des Rauschausdrucks ignorieren.

— Yu Zhang
quelle

2

Das ergibt für mich keinen Sinn.

— SmallChess

0

$(x_i,y_i)$ $y = \beta x +c$ $\beta$ $\sum_i (y_i - \sum_i \beta x_i - c)^2$ $\eta_i = y_i - (\beta x_i +c)$ $\beta$ $\beta$ $\beta$ $\beta$ $\beta$

— aginensky
quelle