Ich war ein wenig verwirrt von der obigen Antwort, daher werde ich es noch einmal versuchen. Ich denke, die Frage bezieht sich nicht auf die "klassische" lineare Regression, sondern auf den Stil dieser bestimmten Quelle. Zum klassischen Regressionsteil:
Die Annahme der Linearität an sich gibt unserem Modell jedoch keine Struktur
Das ist absolut richtig. Wie Sie gesagt haben, könnte genauso gut die lineare Beziehung beenden und etwas völlig Unabhängiges von addieren, so dass wir überhaupt kein Modell berechnen können.ϵX
Ist Greene schlampig? Sollte er tatsächlich geschrieben haben:E(y|X)=Xβ
Ich möchte die erste Frage nicht beantworten, aber lassen Sie mich die Annahmen zusammenfassen, die Sie für die übliche lineare Regression benötigen:
Nehmen wir an, Sie beobachten (Sie erhalten) Datenpunkte und für . Sie müssen davon ausgehen, dass die beobachteten Daten von unabhängigen, identisch verteilten Zufallsvariablen so dass ...xi∈Rdyi∈Ri=1,...,n(xi,yi)(Xi,Yi)
Es gibt ein festes (unabhängig von ) so dass für alle und die Zufallsvariablen sind, dassβ ∈ R d Y i = β X i + ϵ i i ϵ iiβ∈RdYi=βXi+ϵiiϵi
Die sind ebenfalls iid und wird als ( muss ebenfalls unabhängig von ).ϵ i N ( 0 , σ ) σ iϵiϵiN(0,σ)σi
Für und die Variablen eine gemeinsame Dichte, dh die einzelne Zufallsvariable hat eine DichteY = ( Y 1 , . . . , Y n ) , X , Y ( X , Y ) f X , YX=(X1,...,Xn)Y=(Y1,...,Yn)X,Y(X,Y)fX,Y
Jetzt können Sie den üblichen Pfad durchlaufen und rechnen
fY|X(y|x)=fY,X(y,x)/fX(x)=(12πd−−−√)nexp(−∑ni=1(yi−βxi)22σ)
so dass Sie durch die übliche 'Dualität' zwischen maschinellem Lernen (Minimierung von Fehlerfunktionen) und Wahrscheinlichkeitstheorie (Maximierung von Wahrscheinlichkeiten) maximieren in , was Ihnen tatsächlich gibt das übliche "RMSE" Zeug.β−logfY|X(y|x)β
Nun wie gesagt: Wenn der Autor des Buches, das Sie zitieren, diesen Punkt ansprechen möchte (was Sie tun müssen, wenn Sie jemals in der Lage sein möchten, die 'bestmögliche' Regressionslinie in der Grundeinstellung zu berechnen), dann muss er ja Nehmen Sie diese Annahme über die Normalität des irgendwo im Buch an.ϵ
Es gibt jetzt verschiedene Möglichkeiten:
Er schreibt diese Annahme nicht in das Buch. Dann ist es ein Fehler im Buch.
Er schreibt es in Form einer 'globalen' Bemerkung auf wie 'Wenn ich schreibe, werden die normal mit dem Mittelwert Null verteilt, sofern nicht anders angegeben'. Dann ist es meiner Meinung nach ein schlechter Stil, weil es genau die Verwirrung verursacht, die Sie gerade fühlen. Deshalb neige ich dazu, die Annahmen in jedem Satz in verkürzter Form zu schreiben . Nur dann kann jeder Baustein für sich sauber betrachtet werden.ϵ+ϵϵ
- Er schreibt es genau auf den Teil, den Sie zitieren, und Sie / wir haben es einfach nicht bemerkt (auch eine Möglichkeit :-))
Aber auch im engeren mathematischen Sinne ist der normale Fehler etwas Kanonisches (die Verteilung mit der höchsten Entropie [sobald die Varianz festgelegt ist], wodurch die stärksten Modelle erzeugt werden), so dass einige Autoren dazu neigen, diese Annahme zu überspringen, sie aber dennoch zu verwenden . Formal haben Sie absolut Recht: Sie verwenden Mathematik auf die "falsche Weise". Wann immer sie die oben angegebene Gleichung für die Dichte , müssen sie ziemlich gut kennen, sonst haben Sie nur Eigenschaften davon, die in jeder sinnvollen Gleichung herumfliegen, die Sie aufzuschreiben versuchen . ϵfY|Xϵ