Wann ist die Quantilregression schlechter als die OLS?


22

Abgesehen von einigen besonderen Umständen, in denen wir die bedingte mittlere Beziehung unbedingt verstehen müssen, in welchen Situationen sollte ein Forscher OLS anstelle von Quantile Regression wählen?

Ich möchte nicht, dass die Antwort "wenn es keinen Sinn macht, die Schwanzbeziehungen zu verstehen" lautet, da wir einfach die mediane Regression als OLS-Ersatz verwenden könnten.


4
Ich denke, die meisten Forscher würden sowohl OLS- als auch Quantil-Regression betreiben. Unterschiede zwischen den Methoden lassen erkennen, was Sie modellieren möchten. In Bezug auf OLS erhalten Sie eine Menge gut dokumentierter und gründlicher Testmethoden, die in den meisten statistischen Paketen verfügbar sind, wenn Sie die Normalitätsannahmen einkalkulieren.
Jonathan Lisic

Antworten:


18

Wenn Sie sich für den Mittelwert interessieren, verwenden Sie OLS, wenn Sie sich im Median befinden, verwenden Sie Quantil.

Ein großer Unterschied besteht darin, dass der Mittelwert stärker von Ausreißern und anderen extremen Daten beeinflusst wird. Manchmal ist es das, was du willst. Ein Beispiel ist, wenn Ihre abhängige Variable das soziale Kapital in einer Nachbarschaft ist. Die Anwesenheit einer einzelnen Person mit viel sozialem Kapital kann für die gesamte Nachbarschaft von großer Bedeutung sein.


6
Lassen Sie mich Ihren ersten Satz anfechten. Sowohl OLS als auch Quantile Regression (QR) schätzen für einen Datenerzeugungsprozess y = X β + ε . Wenn die Fehlerverteilung hat schweren Schwanz, β Q R ist effizienter als β O L S . Unabhängig davon , welcher Zeitpunkt der bedingten Verteilung P ( y | X ) wir interessiert sind, sollten wir die eine der verwenden β O L S und β Q Rβy=Xβ+εβ^QRβ^OLSP(y|X)β^OLSβ^QRdas ist effizienter.
Richard Hardy

Nach @RichardHardys Kritik an dieser Antwort ist der Median nur eines der schätzbaren Quantile. Dieser Hyndman Beitrag stellt einen Ansatz nennt er additive Quantilsregression steigern , die eine vollständige Palette von quantiles erforscht, Prognoseunsicherheit in Strom Smart Meter Daten durch Steigerung der Additive Quantilsregression ( ieeexplore.ieee.org/document/7423794 ).
Mike Hunter

15

Die Prämisse der Frage scheint verwirrend zu sein. Im zweiten Absatz heißt es: "Wir könnten einfach die mediane Regression als OLS-Ersatz verwenden". Man beachte , dass die bedingte Median auf X Regression ist (eine Form von) Quantilsregression.

Wenn der Fehler im zugrunde liegenden Datenerzeugungsprozess normal verteilt ist (was durch Überprüfen, ob die Residuen normal sind, beurteilt werden kann), entspricht das bedingte Mittel dem bedingten Median. Darüber hinaus kann jedes Quantil, an dem Sie interessiert sein könnten (z. B. das 95. Perzentil oder das 37. Perzentil), mit Standard-OLS-Methoden für einen bestimmten Punkt in der X-Dimension bestimmt werden. Die Hauptattraktivität der Quantilregression besteht darin, dass sie robuster als OLS ist. Der Nachteil ist, dass alle getroffenen Annahmen weniger effizient sind (das heißt, Sie benötigen eine größere Stichprobe, um die gleiche Leistung zu erzielen, und Ihre Schätzungen werden ungenauer sein).


12

Sowohl OLS als auch Quantile Regression (QR) sind Schätztechniken zum Schätzen des Koeffizientenvektors in einem linearen Regressionsmodell y = X β + ε (für den Fall von QR siehe Koenker (1978), S. 33, zweiter Absatz).β

y=Xβ+ε

β^QRβ^OLSβ^OLSPY(y|X)β^OLSβ^QR

β^OLSβ^QRβ^OLSβ^QR

Verweise:

  • Koenker, Roger und Gilbert Bassett Jr. "Regressionsquantile". Econometrica: Journal of the Econometric Society (1978): 33-50.

3

Peter Flom hatte eine großartige und prägnante Antwort, ich möchte sie nur erweitern. Der wichtigste Teil der Frage ist, wie man "schlechter" definiert.

Um schlechter zu definieren, benötigen wir einige Metriken und die Funktion, um zu berechnen, wie gut oder schlecht die Armaturen als Verlustfunktionen bezeichnet werden.

Wir können unterschiedliche Definitionen der Verlustfunktion haben, und es gibt kein Richtig oder Falsch in jeder Definition, aber unterschiedliche Definitionen erfüllen unterschiedliche Bedürfnisse. Zwei bekannte Verlustfunktionen sind der Quadratverlust und der Absolutwertverlust.

Lsq(y,y^)=i(yiy^i)2
Labs(y,y^)=i|yiy^i|

Wenn wir den Quadratverlust als Erfolgsmaßstab verwenden, ist die Quantilregression schlechter als die von OLS. Wenn wir dagegen den absoluten Wertverlust verwenden, ist die Quantilregression besser.

Welches ist die Antwort von Peter Folm:

Wenn Sie sich für den Mittelwert interessieren, verwenden Sie OLS, wenn Sie sich im Median befinden, verwenden Sie Quantil.


Ich denke, Ihr Beispiel könnte irreführend sein, da es sich eher mit der Anpassung innerhalb der Stichprobe befasst (was von geringem Interesse ist, da wir unsere Stichprobe bereits genau kennen) als mit dem erwarteten Verlust für neue Beobachtungen (wenn das Ziel die Vorhersage ist) oder dem Verlust der Schätzung des Parametervektors ( wenn das Ziel Erklärung ist). Siehe Kommentar unter Peter Floms Antwort und meine Antwort für weitere Details.
Richard Hardy

3

Y2π

Wenn Sie den Mittelwert schätzen möchten, können Sie ihn nicht aus der Quantilregression ableiten.

Verwenden Sie die semiparametrische ordinale Regression, wenn Sie den Mittelwert und die Quantile mit minimalen Annahmen (aber mehr Annahmen als die Quantilregression) und mit höherer Effizienz schätzen möchten. Dies gibt Ihnen auch Überschreitungswahrscheinlichkeiten. Eine ausführliche Fallstudie in meinen RMS- Kursnotizen zeigt, dass der durchschnittliche mittlere absolute Schätzfehler über mehrere Parameter (Quantile und Mittelwert) durch ordinale Regression erreicht wird. Aber um nur den Mittelwert zu schätzen, ist OLS am besten, und um nur Quantile zu schätzen, war die Quantilregression am besten.

Y

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.