Vergleichen von Residuen zwischen OLS- und Nicht-OLS-Regressionen

Angenommen, Sie möchten ein lineares Modell schätzen: ( Beobachtungen der Antwort und Prädiktoren) $n$ $p+1$

E. (y_{ich}) = β_{0} + \sum_{j = 1}^{p} β_{j} x_{ich j}

$\mathbb{E}(y_i) = \beta_0 + \sum_{j=1}^p \beta_j x_{ij}$

Eine Möglichkeit, dies zu tun, ist die OLS-Lösung, dh wählen Sie die Koeffizienten so, dass die Summe der quadratischen Fehler minimal ist:

(β_{0}, β_{1}, \dots, β_{p})^{T.} = \underset{β_{0}, β_{1}, \dots, β_{p}}{\arg Mindest} \sum_{ich = 1}^{n} {(y_{ich} - - β_{0} - - \sum_{j = 1}^{p} β_{j} x_{ich j})}^{2}

$(\beta_0,\beta_1,\cdots,\beta_p)^T = \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sum_{i=1}^{n} \left( y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right)^2$

Alternativ können Sie eine andere Verlustfunktion verwenden, z. B. die Summe der absoluten Abweichungen, sodass:

(β_{0}, β_{1}, \dots, β_{p})^{T.} = \underset{β_{0}, β_{1}, \dots, β_{p}}{\arg Mindest} \sum_{ich = 1}^{n} | y_{ich} - - β_{0} - - \sum_{j = 1}^{p} β_{j} x_{ich j} |

$(\beta_0,\beta_1,\cdots,\beta_p)^T = \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sum_{i=1}^{n} \left| y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right|$

Angenommen, Sie haben die Parameter für die beiden Modelle gefunden und möchten das Modell mit dem kleinsten Wert der Verlustfunktion auswählen. Wie können Sie die Mindestwerte vergleichen, die die Verlustfunktionen im Allgemeinen erreichen? (dh nicht nur in diesem speziellen Fall - wir könnten auch andere $L_p$ basierte Verlustfunktionen ausprobieren ) Es scheint einen Unterschied in der Skalierung der Funktionen zu geben - einer befasst sich mit Quadraten, der andere nicht.

regression loss-functions

— Comp_Warrior
quelle

Nun, die Markov-Annahmen lassen uns zeigen, dass die erste Gleichung BLAU oder der beste lineare unverzerrte Schätzer ist. In diesem Fall wird "Best" bestimmt, indem die kleinsten Standardfehler aller möglichen Schätzer vorliegen. Ist das nicht eine angemessene Statistik?

— Gregmacfarlane

Beachten Sie, dass und damit

‖ x ‖_{2} \leq ‖ x ‖_{1} \leq \sqrt{n} ‖ x ‖_{2}

$\|x\|_2 \leq \|x\|_1 \leq \sqrt{n}\|x\|_2$

\underset{β_{0}, β_{1}, \dots, β_{p}}{\arg Mindest} \sqrt{\sum_{ich = 1}^{n} {(y_{ich} - - β_{0} - - \sum_{j = 1}^{p} β_{j} x_{ich j})}^{2}} \leq \underset{β_{0}, β_{1}, \dots, β_{p}}{\arg Mindest} \sum_{ich = 1}^{n} | y_{ich} - - β_{0} - - \sum_{j = 1}^{p} β_{j} x_{ich j} | \leq \sqrt{(} n) \underset{β_{0}, β_{1}, \dots, β_{p}}{\arg Mindest} \sqrt{\sum_{ich = 1}^{n} {(y_{ich} - - β_{0} - - \sum_{j = 1}^{p} β_{j} x_{ich j})}^{2}}

$\underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sqrt{\sum_{i=1}^{n} \left( y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right)^2} \leq \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sum_{i=1}^{n} \left| y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right| \leq \sqrt(n) \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sqrt{\sum_{i=1}^{n} \left( y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right)^2}$

— Manuel

@gmacfarlane Ich möchte hier "am besten" in Bezug auf den Mindestwert der Verlustfunktion anstelle des Standardfehlers bei den Parameterschätzungen definieren. (nur aus Neugier)

— Comp_Warrior

Ich denke, Sie können die Anpassungen, die von zwei verschiedenen Verlustfunktionen stammen, nicht vergleichen, da sie Antworten auf verschiedene Fragen sind. Sobald Sie entscheiden, dass eine bestimmte Verlustfunktion für Ihre Situation geeignet ist, folgt die Anpassung aus dieser Entscheidung. Sie können es nicht zurückklappen, um die Wahl der Verlustfunktion zu validieren, ohne dass dies kreisförmig wird. Wenn Sie ein anderes Kriterium haben, von dem beide Verlustfunktionen verstanden werden können, können Sie es verwenden, aber Sie müssen dies im Voraus definiert haben.

— Gung - Reinstate Monica

Beachten Sie, dass die Frage effektiv in "Wie vergleiche ich eine mittlere Abweichung mit einer Standardabweichung" umgerechnet würde, wenn das Modell für die Erwartung korrekt wäre und die Stichprobengrößen groß genug wären, dass beide Schätzungen effektiv dem Populationswert entsprechen. Unter jeder gegebenen Verteilungsannahme könnten Sie dann ihre erwartete Größe vergleichen, aber natürlich unterscheiden sich in kleinen Stichproben die Schätzungen selbst.

— Glen_b -Rate State Monica

(Meinen Kommentar in eine Antwort umwandeln.)

Ich denke, Sie können die Anpassungen, die von verschiedenen Verlustfunktionen stammen, nicht vergleichen, da sie Antworten auf verschiedene Fragen sind. Sobald Sie entscheiden, dass eine bestimmte Verlustfunktion für Ihre Situation geeignet ist, folgt die Anpassung aus dieser Entscheidung. Sie können es nicht zurückklappen, um die Wahl der Verlustfunktion zu überprüfen, ohne dass dies kreisförmig wird. Wenn Sie ein anderes Kriterium haben, von dem beide Verlustfunktionen verstanden werden können, können Sie es verwenden, aber Sie müssen dies im Voraus definiert haben.

— gung - Monica wieder einsetzen
quelle