Wie funktioniert die Quantilregression?

Ich hoffe auf eine intuitive, verständliche Erklärung der Quantilregression.

Angenommen, ich habe einen einfachen Datensatz mit dem Ergebnis und den Prädiktoren . $Y$ $X_1, X_2$

Wenn ich zum Beispiel eine Quantil-Regression bei .25, .5, .75 durchführe und . $\beta_{0,.25},\beta_{1,.25}...\beta_{2,.75}$

Werden die -Werte durch einfaches Ordnen der Werte und Ausführen einer linearen Regression basierend auf den Beispielen gefunden, die sich bei / nahe dem gegebenen Quantil befinden? $\beta$ $y$

Oder tragen alle Stichproben zu den Schätzungen bei, wobei die Gewichtung mit zunehmender Entfernung vom Quantil abnimmt? $\beta$

Oder ist es etwas ganz anderes? Ich habe noch keine zugängliche Erklärung gefunden.

quantile-regression

— Jeremy
quelle

In Bezug auf die Mathematik finden Sie diese beiden Antworten möglicherweise hilfreich: stats.stackexchange.com/questions/102906/… , stats.stackexchange.com/questions/88387/…

— Andy

Antworten:

Ich empfehle Koenker & Hallock (2001, Journal of Economic Perspectives) und Koenkers gleichnamiges Lehrbuch .

Ausgangspunkt ist die Beobachtung, dass der Median eines Datensatzes die Summe der absoluten Fehler minimiert . Das heißt, das 50% -Quantil ist eine Lösung für ein bestimmtes Optimierungsproblem (um den Wert zu finden, der die Summe der absoluten Fehler minimiert).
Daraus lässt sich leicht ableiten, dass jedes Quantil die Lösung für ein bestimmtes Minimierungsproblem ist, nämlich die Minimierung einer Summe asymmetrisch gewichteter absoluter Fehler mit von abhängigen Gewichten . $\tau$ $\tau$
Um schließlich den Schritt zur Regression zu machen, modellieren wir die Lösung dieses Minimierungsproblems als lineare Kombination von Prädiktorvariablen. Nun besteht das Problem darin, nicht einen einzelnen Wert, sondern eine Menge von Regressionsparametern zu finden.

Ihre Intuition ist also ganz richtig: Alle Stichproben tragen zu den Schätzungen bei, wobei asymmetrische Gewichte von dem Quantil abhängen, das wir anstreben. $\beta$ $\tau$

— S. Kolassa - Setzen Sie Monica wieder ein
quelle

Wäre dies in Bezug auf Punkt 1) nicht nur unter der Annahme wahr, dass Y symmetrisch verteilt ist? Wenn Y wie {1, 1, 2, 4, 10} schief ist, würde der Median 2 den absoluten Fehler mit Sicherheit nicht minimieren. Nimmt die Quantilregression immer an, dass Y symmetrisch verteilt ist? Vielen Dank!

— Ben

@ Ben: Nein, Symmetrie ist nicht erforderlich. Der entscheidende Punkt ist, dass der Median den erwarteten absoluten Fehler minimiert . Wenn Sie eine diskrete Verteilung mit den Werten 1, 2, 4, 10 und den Wahrscheinlichkeiten 0,4, 0,2, 0,2, 0,2 haben, minimiert eine Punktzusammenfassung von 2 tatsächlich den erwarteten absoluten Fehler. Eine Simulation ist nur ein paar Zeilen von R-Code:

foo <- sample(x=c(1,2,4,10),size=1e6,prob=c(.4,.2,.2,.2),replace=TRUE); xx <- seq(1,10,by=.1); plot(xx,sapply(xx,FUN=function(yy)mean(abs(yy-foo))),type="l")

— S. Kolassa - Reinstate Monica

(Und ja, ich hätte in meiner Antwort klarer sein sollen, anstatt "Summen" zu diskutieren.)

— S. Kolassa - Setzen Sie Monica am

Derp. Was habe ich gedacht? Das macht jetzt Sinn, danke.

— Ben

Die Grundidee der quantilen Regression beruht auf der Tatsache, dass der Analyst an der Verteilung von Daten interessiert ist und nicht nur an der Mittelung von Daten. Fangen wir mit dem Mittelwert an.

$y=X\beta$ $E(Y|X=x)=x\beta$ $\arg\min_\beta (y-x\beta)'(y-X\beta)$

Auf der anderen Seite sucht die mediane Regression nach einer Linie, bei der die Hälfte der Daten auf Seiten liegt. In diesem Fall lautet die Zielfunktionwoist die erste Norm. $\arg\min_\beta |y-X\beta|$ $|.|$

Ausweitung des Medianwerts auf Quantilergebnisse in der Quantilregression. Die Idee dahinter ist , eine Linie zu finden , dass -percent von Daten über das ist. $\alpha$

Hier haben Sie einen kleinen Fehler gemacht. Q-Regression ist nicht so, als würde man ein Quantil von Daten finden und dann eine Linie zu dieser Teilmenge (oder sogar zu den herausfordernderen Grenzen) passen.

Die Q-Regression sucht nach einer Linie, die Daten in eine Q-Gruppe a Quantil und die Reste aufteilt . Die Zielfunktion für die Q-Regression lautet $\alpha$

{\hat{β}}_{α} = \arg \underset{β}{Mindest} {α | y - X β | ich (y > X β) + (1 - α) | y - X β | ich (y < X β)} .

$\hat\beta_\alpha=\arg\min_\beta \bigg\{\alpha |y-X\beta| I(y>X\beta) + (1-\alpha) |y-X\beta|I(y<X\beta)\bigg\}.$

Wie Sie sehen, ist diese clevere Zielfunktion nichts anderes, als Quantil in ein Optimierungsproblem zu übersetzen.

Wie Sie sehen, wird die Q-Regression außerdem für eine bestimmte Menge definiert ( ) und kann dann erweitert werden, um alle Mengen zu finden. Mit anderen Worten kann die Q-Regression die (bedingte) Verteilung der Antwort reproduzieren. $\beta_\alpha$

— TPArrow
quelle

Diese Antwort ist brillant.

— Jinhua Wang