Es wird sehr oft festgestellt, dass die Minimierung der kleinsten Fehlerquadrate der Minimierung der absoluten Fehlerquadrate vorgezogen wird, da dies rechnerisch einfacher ist . Es kann aber auch aus anderen Gründen besser sein. Das heißt, wenn die Annahmen wahr sind (und das ist nicht so selten) , dann bietet es eine Lösung , die (im Durchschnitt) ist genauer.
Maximale Wahrscheinlichkeit
Die Regression der kleinsten Quadrate und die Quantil-Regression (wenn sie durch Minimierung der absoluten Residuen durchgeführt werden) können als Maximierung der Wahrscheinlichkeitsfunktion für verteilte Gauß- / Laplace-Fehler angesehen werden und sind in diesem Sinne sehr verwandt.
Gaußsche Verteilung:
f( x ) = 12 πσ2----√e- ( x - μ )22 σ2
wobei die log-Wahrscheinlichkeit maximiert wird, wenn die Summe der quadratischen Residuen minimiert wird
LogL (x)=- n2Log( 2 π) - n log( σ) - 12 σ2∑i = 1n( xich- μ )2Summe der quadratischen Residuen
Laplace-Verteilung:
f( x ) = 12 be- | x - μ |b
wobei die log-Wahrscheinlichkeit maximiert wird, wenn die Summe der absoluten Residuen minimiert wird
LogL (x)=-nlog( 2 ) - n log( b ) - 1b∑i = 1n| xich- μ |Summe der absoluten Residuen
Hinweis: Die Laplace-Verteilung und die Summe der absoluten Residuen beziehen sich auf den Median, können jedoch auf andere Quantile verallgemeinert werden, indem negativen und positiven Residuen unterschiedliche Gewichte gegeben werden.
Bekannte Fehlerverteilung
Wenn wir die Fehlerverteilung kennen (wenn die Annahmen wahrscheinlich zutreffen), ist es sinnvoll, die zugehörige Wahrscheinlichkeitsfunktion zu wählen. Das Minimieren dieser Funktion ist optimaler.
Sehr oft sind die Fehler (ungefähr) normal verteilt. In diesem Fall ist die Verwendung der kleinsten Quadrate der beste Weg, um den Parameter zu finden (der sich sowohl auf den Mittelwert als auch auf den Median bezieht ). Dies ist der beste Weg, da er die niedrigste Stichprobenvarianz aufweist (der niedrigste aller unverzerrten Schätzer). Oder Sie können stärker sagen: Sie ist stochastisch dominant (siehe Abbildung in dieser Frage , in der die Verteilung des Stichprobenmedians mit dem Stichprobenmittelwert verglichen wird).μ
Wenn die Fehler normalverteilt sind, ist der Stichprobenmittelwert ein besserer Schätzer für den Verteilungsmedian als den Stichprobenmedian . Die Regression der kleinsten Quadrate ist ein optimaler Schätzer der Quantile. Es ist besser, als die geringste Summe absoluter Residuen zu verwenden.
Da so viele Probleme mit normalverteilten Fehlern zu tun haben, ist die Verwendung der Methode der kleinsten Quadrate sehr beliebt. Um mit anderen Arten von Verteilungen zu arbeiten, kann man das generalisierte lineare Modell verwenden . Die Methode der iterativen kleinsten Quadrate, mit der GLMs gelöst werden können, funktioniert auch für die Laplace-Verteilung (dh für absolute Abweichungen ), die dem Finden des Medians (oder in der verallgemeinerten Version anderer Quantile) entspricht.
Unbekannte Fehlerverteilung
Robustheit
Der Median oder andere Quantile haben den Vorteil, dass sie hinsichtlich der Art der Verteilung sehr robust sind. Die tatsächlichen Werte sind unwichtig und die Quantile kümmern sich nur um die Reihenfolge. Unabhängig von der Verteilung funktioniert die Minimierung der absoluten Residuen (was dem Auffinden der Quantile entspricht) sehr gut.
Die Frage wird hier komplex und weit gefasst und hängt davon ab, über welche Art von Wissen wir über die Verteilungsfunktion verfügen oder nicht. Beispielsweise kann eine Verteilung annähernd normalverteilt sein, jedoch nur mit einigen zusätzlichen Ausreißern. Dies kann durch Entfernen der äußeren Werte behoben werden. Diese Entfernung der Extremwerte funktioniert sogar beim Schätzen des Ortsparameters der Cauchy-Verteilung, wobei der abgeschnittene Mittelwert ein besserer Schätzer als der Median sein kann. Nicht nur für die ideale Situation, in der die Annahmen gelten, sondern auch für einige weniger ideale Anwendungen (z. B. zusätzliche Ausreißer) gibt es möglicherweise gute robuste Methoden, die immer noch eine Form einer Summe von quadratischen Residuen anstelle der Summe von absoluten Residuen verwenden.
Ich stelle mir vor, dass die Regression mit verkürzten Residuen viel komplexer sein könnte. Es kann sich also tatsächlich um eine Quantilregression handeln, bei der es sich um die Art der Regression handelt, die ausgeführt wird, weil sie rechnerisch einfacher ist (nicht einfacher als gewöhnliche kleinste Quadrate, sondern einfacher als abgeschnittene kleinste Quadrate).
Voreingenommen / unvoreingenommen
Ein weiteres Problem ist voreingenommen gegenüber unvoreingenommenen Schätzern. Oben habe ich die Maximum-Likelihood-Schätzung für den Mittelwert, dh die Lösung der kleinsten Quadrate, als guten oder bevorzugten Schätzer beschrieben, da sie häufig die niedrigste Varianz aller unverzerrten Schätzer aufweist (wenn die Fehler normalverteilt sind). Aber voreingenommene Schätzer können besser sein (niedrigere erwartete Summe des quadratischen Fehlers).
Dies macht die Frage erneut weit und komplex. Es gibt viele verschiedene Schätzer und viele verschiedene Situationen, um sie anzuwenden. Die Verwendung einer angepassten Funktion zum Reduzieren der Summe der quadratischen Residuenverluste funktioniert häufig gut, um den Fehler zu verringern (z. B. alle Arten von Regularisierungsmethoden), muss jedoch möglicherweise nicht in allen Fällen gut funktionieren. Es ist intuitiv nicht verwunderlich, sich vorzustellen, dass, da die Summe der quadratischen Residuenverluste häufig für alle unverzerrten Schätzer gut funktioniert, die optimal voreingenommenen Schätzer wahrscheinlich einer Summe der quadratischen Residuenverluste nahekommen.