Antworten:
Diese Frage ist ziemlich alt, aber ich habe tatsächlich eine Antwort, die hier nicht erscheint, und eine, die einen zwingenden Grund angibt, warum (unter vernünftigen Annahmen) der quadratische Fehler richtig ist, während jede andere Potenz falsch ist.
Sagen wir einige Daten und wollen die lineare (oder was auch immer) Funktion f finden , die die Daten am besten vorhersagt, in dem Sinne, dass die Wahrscheinlichkeitsdichte p f ( D ) zur Beobachtung dieser Daten in Bezug auf f maximal sein sollte (Dies nennt man die Maximum-Likelihood-Schätzung). Nehmen wir an, dass die Daten durch plus einen normalverteilten Fehlerterm mit der Standardabweichung σ gegeben sind , dann ist p f ( D ) = n ∏ i = 1 1 Dies entspricht 1
Es gibt keinen Grund, warum Sie nicht versuchen könnten, andere Normen als x ^ 2 zu minimieren. Es wurden beispielsweise ganze Bücher über die Quantilregression geschrieben, die | x | mehr oder weniger minimiert wenn Sie mit dem Median arbeiten. Es ist im Allgemeinen nur schwieriger zu tun und gibt, abhängig vom Fehlermodell, möglicherweise keine guten Schätzer (je nachdem, ob dies im Kontext niedrige Varianz- oder unvoreingenommene oder niedrige MSE-Schätzer bedeutet).
Was den Grund angeht, warum wir Momente mit ganzen Zahlen gegenüber Momenten mit reellen Zahlen bevorzugen, so ist der Hauptgrund wahrscheinlich, dass ganze Potenzen von reellen Zahlen immer reelle Zahlen ergeben, während nicht ganzzahlige Potenzen von negativen reellen Zahlen komplexe Zahlen erzeugen und daher die Verwendung von erfordern ein absoluter Wert. Mit anderen Worten, während der 3. Moment einer reellen Zufallsvariablen reell ist, ist der 3.2. Moment nicht unbedingt reell und verursacht so Interpretationsprobleme.
Ansonsten ...
Wir versuchen, die in Deskriptoren verbleibende Varianz zu minimieren. Warum Varianz? Lesen Sie diese Frage ; dies geht auch mit der (meist stillen) Annahme einher, dass Fehler normalverteilt sind.
Erweiterung:
Zwei zusätzliche Argumente:
Für Varianzen haben wir dieses nette "Gesetz", dass die Summe der Varianzen gleich der Varianzen der Summe für nicht korrelierte Stichproben ist. Wenn wir davon ausgehen, dass der Fehler nicht mit dem Fall korreliert, führt die Minimierung des Restquadrats direkt zur Maximierung der erklärten Varianz. Dies ist möglicherweise ein nicht so gutes, aber immer noch beliebtes Qualitätsmaß.
Wenn wir die Normalität eines Fehlers annehmen, ist der Fehler-Schätzer der kleinsten Quadrate eine maximale Wahrscheinlichkeit eins.
In gewöhnlichen kleinsten Quadraten minimiert die Lösung von (A'A) ^ (- 1) x = A'b den quadratischen Fehlerverlust und ist die Lösung mit maximaler Wahrscheinlichkeit.
Hauptsächlich deshalb, weil die Mathematik in diesem historischen Fall einfach war.
Im Allgemeinen minimieren Menschen jedoch viele verschiedene Verlustfunktionen , wie Exponential-, Logistik-, Cauchy-, Laplace-, Huber- usw. Diese exotischeren Verlustfunktionen erfordern im Allgemeinen eine Menge Rechenressourcen und haben (im Allgemeinen) keine geschlossenen Lösungen Sie werden jetzt erst populärer.
Mein Verständnis ist, dass wir, weil wir versuchen, Fehler zu minimieren, einen Weg finden müssen, um nicht in eine Situation zu geraten, in der die Summe der negativen Fehlerdifferenzen gleich der Summe der positiven Fehlerdifferenzen ist, dies aber nicht der Fall ist fand eine gute Passform. Wir tun dies, indem wir die Summe der Fehlerdifferenzen quadrieren, was bedeutet, dass sowohl die negative als auch die positive Fehlerdifferenz positiv werden (). Wenn wir erhöht haben Hoch von etwas anderem als einer positiven ganzen Zahl würden wir dieses Problem nicht angehen, weil die Fehler nicht das gleiche Vorzeichen hätten, oder wenn wir hoch von etwas, das keine ganze Zahl ist, würden wir in die Bereiche der Komplexität eintreten zahlen.