Die Frage ist sehr einfach: Warum versuchen wir beim Anpassen eines Modells an unsere linearen oder nichtlinearen Daten normalerweise, die Summe der Fehlerquadrate zu minimieren, um unseren Schätzer für den Modellparameter zu erhalten? Warum nicht eine andere Zielfunktion zum Minimieren wählen? Ich verstehe, dass die quadratische Funktion aus technischen Gründen besser ist als einige andere Funktionen, z. B. die Summe der absoluten Abweichungen. Dies ist jedoch noch keine sehr überzeugende Antwort. Warum befürworten die Menschen, abgesehen von diesem technischen Grund, diese euklidische Art der Distanzfunktion? Gibt es dafür eine bestimmte Bedeutung oder Interpretation?
Die Logik hinter meinem Denken ist die folgende:
Wenn Sie über einen Datensatz verfügen, richten Sie Ihr Modell zuerst ein, indem Sie eine Reihe von funktionalen oder verteilenden Annahmen treffen (z. B. eine bestimmte Momentbedingung, aber nicht die gesamte Verteilung). In Ihrem Modell gibt es einige Parameter (vorausgesetzt, es ist ein parametrisches Modell). Dann müssen Sie einen Weg finden, um diese Parameter konsistent abzuschätzen, und hoffentlich hat Ihr Schätzer eine geringe Varianz und einige andere nützliche Eigenschaften. Unabhängig davon, ob Sie die SSE oder LAD oder eine andere objektive Funktion minimieren, handelt es sich meines Erachtens nur um verschiedene Methoden, um einen konsistenten Schätzer zu erhalten. Dieser Logik folgend dachte ich, dass die Leute das kleinste Quadrat verwenden müssen 1) es erzeugt einen konsistenten Schätzer des Modells 2) etwas anderes, das ich nicht kenne.
In der Ökonometrie wissen wir, dass im linearen Regressionsmodell, wenn Sie davon ausgehen, dass die Fehlerterme eine 0-Mittelwertkonditionierung für die Prädiktoren haben und Homoskedastizität und Fehler nicht miteinander korreliert sind, die Minimierung der Summe der quadratischen Fehler einen KONSISTENTEN Schätzer für Ihr Modell ergibt Parameter und nach dem Gauß-Markov-Theorem ist dieser Schätzer BLAU. Wenn Sie sich also für die Minimierung einer anderen Zielfunktion entscheiden, bei der es sich nicht um die SSE handelt, kann nicht garantiert werden, dass Sie einen konsistenten Schätzer für Ihre Modellparameter erhalten. Ist mein Verständnis korrekt? Wenn es richtig ist, kann die Minimierung von SSE anstelle einer anderen objektiven Funktion durch Konsistenz gerechtfertigt werden, was in der Tat akzeptabel ist, besser als zu sagen, dass die quadratische Funktion besser ist.
In der Praxis habe ich tatsächlich viele Fälle gesehen, in denen Menschen die Summe der quadratischen Fehler direkt minimieren, ohne zunächst das vollständige Modell eindeutig anzugeben, z. B. die Verteilungsannahmen (Momentannahmen) für den Fehlerterm. Dann scheint mir der Benutzer dieser Methode nur zu sehen, wie genau die Daten in Bezug auf die Quadratabstandsfunktion zum 'Modell' passen (ich verwende Anführungszeichen, da die Modellannahmen wahrscheinlich unvollständig sind).
Eine verwandte Frage (auch im Zusammenhang mit dieser Website) lautet: Warum verwenden wir, wenn wir versuchen, verschiedene Modelle mit Kreuzvalidierung zu vergleichen, wieder die SSE als Beurteilungskriterium? Wählen Sie also das Modell mit der geringsten SSE aus. Warum nicht noch ein Kriterium?