Begründung für die Verwendung geometrischer Gewichte in der linearen Regression

In der praktischen Anwendung habe ich oft die folgende Praxis gesehen. Man beobachtet ein Paar $(x_t, y_t)$ über die Zeit. Unter der Annahme, dass sie linear zusammenhängen, regressieren wir uns unter Verwendung geometrischer Gewichte anstelle einheitlicher Gewichte gegeneinander, dh der OLS minimiert für einige . Das ist sehr intuitiv: Wir gewichten weit weniger Beobachtungen in der Vergangenheit. Im Vergleich zu einem "Boxcar" -Gewichtungsschema hat es auch den Vorteil, Schätzungen zu erstellen, die sich im Laufe der Zeit reibungslos ändern, da Beobachtungen nicht abrupt aus dem Beobachtungsfenster fallen. Ich frage mich jedoch, ob es eine Wahrscheinlichkeit gibt

\sum_{t = 0}^{\infty} k^{t} (y_{T - t} - a x_{T - t} - b)^{2}

$\sum_{t=0}^\infty k^{t} (y_{T-t}- a x_{T-t}-b)^2$

k \in (0, 1)

$k\in (0,1)$ Modell, das der Beziehung zwischen und zugrunde liegt, die diese Wahl rechtfertigt.

x_{t}

$x_t$

y_{t}

$y_t$

regression least-squares

— gappy
quelle

Erst neulich hat jemand irgendwo auf einer der verwandten StackExchange-Sites dieses Schema als "Kalman-Filter des armen Mannes" kommentiert. Wenn es mir gelingt, den Link zu finden, werde ich ihn hier hinzufügen.

— Dirk Eddelbuettel

Vielen Dank. Ich würde gerne sehen, wie dies als Kalman-Filter umformuliert werden kann.

— Gappy

Ich bezweifle, dass es eine formale Ableitung gibt, daher die Zitate um die Version der adaptiven Parameter des armen Mannes.

— Dirk Eddelbuettel

Antworten:

"Linear verwandt" bedeutet normalerweise

y_{t} = a x_{t} + b + ε_{t}

$y_t = a x_t + b + \varepsilon_t$

für Konstante , $a$ $b$ und uiv Zufallsfehler , . Ein Grund, warum man eine exponentiell gewichtete OLS-Schätzung vornehmen würde, ist der Verdacht, dass sich und selbst (langsam) mit der Zeit könnten. Daher denken wir wirklich, dass das richtige Modell ist $\varepsilon_t$ $t=0,1,\ldots,T$ $a$ $b$

y_{t} = α (t) x_{t} + β (t) + ε_{t}

$y_t = \alpha(t) x_t + \beta(t) + \varepsilon_t$

für unbekannte Funktionen $\alpha(t)$ und die sich im Laufe der Zeit langsam (wenn überhaupt) ändern, und wir sind daran interessiert, ihre aktuellen Werte zu schätzen, und . Nehmen wir an, diese Funktionen sind glatt, sodass wir den Satz von Taylor anwenden können. Dies behauptet das $\beta(t)$ $a = \alpha_T$ $b = \beta_T$

α (t) = α (T) + α^{'} (t_{α, t}) (t - T)

$\alpha(t) = \alpha(T) + \alpha'(t_{\alpha,t})(t-T)$

für einige und ähnlich für . Wir denken an und $t_{\alpha,t}, 0 \le t_{\alpha,t} \lt T$ $\beta(t)$ $a$ $b$ als die neuesten Werte bzw. . Verwenden Sie dies, um die Residuen erneut auszudrücken: $\alpha_T$ $\beta_T$

y_{t} - (a x_{t} + b) = α^{'} (t_{α, t}) (t - T) x_{t} + β^{'} (t_{β, t}) (t - T) + ε_{t} .

$y_t - (a x_t + b) = \alpha'(t_{\alpha,t})(t-T)x_t + \beta'(t_{\beta,t})(t-T) + \varepsilon_t\text{.}$

Jetzt muss viel von Hand gewinkt werden. Wir werden die gesamte rechte Seite als zufällig betrachten. Seine Varianz ist die von plus mal der Varianz von plus $\varepsilon_t$ $x_t^2(t-T)^2$ $\alpha'(t_{\alpha,t})$ $(t-T)^2$ fache Varianz von . Diese beiden Varianzen sind völlig unbekannt, aber ( Abrakadabra ) stellen wir uns vor, dass sie aus einem (stochastischen) Prozess resultieren, bei dem möglicherweise systematische (nicht zufällige, aber immer noch unbekannte) "Fehler" oder "Variationen" von einem Zeitpunkt zum anderen akkumuliert werden das andere. Dies würde ein Exponential vorschlagen $\beta'(t_{\beta,t})$ Änderung dieser Abweichungen im Laufe der Zeit. Vereinfachen Sie nun einfach den expliziten (aber im Wesentlichen nutzlosen) Ausdruck für die rechte Seite und absorbieren Sie die quadratischen Terme in das Exponential (da wir sowieso so wild mit den Händen winken), um zu erhalten $(t-T)^2$

y_{t} - (a x_{t} + b) = δ_{t}

$y_t - (a x_t + b) = \delta_t$

mit der Varianz von gleich für eine Konstante . Ignorieren möglicher zeitlicher Korrelationen zwischen den $\delta_t$ $\exp(\kappa(t-T))$ $\kappa$ $\delta_t$ und die Annahme, dass sie Normalverteilungen haben, ergibt eine logarithmische Wahrscheinlichkeit für die Daten proportional zu

\sum_{t = 0}^{T} k^{- t} (y_{T - t} - a x_{T - t} - b)^{2}

$\sum_{t=0}^{T} k^{-t} (y_{T-t}- a x_{T-t}-b)^2$

(plus eine irrelevante Konstante, die nur von abhängt ) mit . Das exponentiell gewichtete OLS-Verfahren maximiert daher die Wahrscheinlichkeit, vorausgesetzt, wir kennen den Wert von $k$ $k = \exp{\kappa}$ $k$ (ähnlich einem Profilwahrscheinlichkeitsverfahren).

Obwohl diese gesamte Ableitung eindeutig phantasievoll ist, zeigt sie, wie und in welchem Ausmaß die exponentielle Gewichtung versucht, mit möglichen Änderungen der linearen Parameter im Laufe der Zeit umzugehen. Es bezieht den Parameter auf die zeitliche Änderungsrate dieser Parameter. $k$

— whuber
quelle

Ich stimme dem handwinkenden Teil zu ... Ich bin in der Lage, Annahmen über die zeitlich variierende Form der Regressionsparameter zu vereinfachen, solange sie klar angegeben sind. Natürlich können Sie gerne auf vorhandene Literatur verweisen.

— Gappy

@whuber - Ich würde sagen, dass die exponentiell gewichtete Regression eine sehr grobe Annäherung für das von Ihnen beschriebene Modell ist . Aber es könnte durchaus eine exakte Lösung für ein anderes Modell sein. Für das Modell, das Sie beschreiben, wäre es viel besser, die heteroskedastische Komponente aufgrund der Variation von (oder anzunehmen, dass es keine Variation gibt und Sie es mit zufälligen Abschnitten zu tun haben). Sie lassen es so aussehen, als ob die geometrische Gewichtung immer nicht optimal ist, was nicht der Fall ist. Dies hängt von Ihren vorherigen Informationen ab.

α (t)

$\alpha(t)$

— Wahrscheinlichkeitslogik

@prob Ich stimme zu, aber ich konnte kein Modell finden, das diesen Ansatz genau rechtfertigt. Deshalb musste ich mich damit zufrieden geben, auf einige der Dinge hinzuweisen, die ein solches Modell mit sich bringen könnte. Ich stelle fest, dass Ihre Antwort auch in dieser Richtung keine Fortschritte macht ;-).

— whuber

@whuber - und wo mache ich eine Annäherung in meiner Gleichung, damit sie nicht genau ist?

— Wahrscheinlichkeitslogik

@probability Sie begründen dies nicht: Sie geben einfach das Ergebnis bekannt, das ich bereits veröffentlicht habe. Mit anderen Worten, Sie stellen fest, dass OLS, wenn es einen solchen Ausdruck minimiert, tatsächlich gewichtete kleinste Quadrate ausführt. OK, aber ist das nicht ganz offensichtlich? Was rechtfertigt diese Wahl der Gewichte? Woher kommen sie?

— whuber

Ich denke, dass du tatsächlich als dein Gewicht meinst oder dass . Wenn und wir als Gewicht nehmen, dann ist . Dies gewichtet also die vorliegende Beobachtung am wenigsten. Wenn wir zum Beispiel dann ist und so weiter. $k^{t}$ $k>1$ $0<k<1$ $k^{-t}$ $k^{-\infty}=\infty$ $k=0.5$ $k^{0}=1,\;k^{-1}=2,\;k^{-2}=4,\dots,k^{-20}\approx 10^{6}$

Dies ist nur eine Aussage darüber, wie sich die Varianz mit jeder Beobachtung ändert (sie wird größer, wenn Sie sich ab dem Zeitpunkt weiter rückwärts bewegen ): $T$

(y_{T - t} | x_{T - t}, a, b, k, s) \sim N o r m a l (a x_{T - t} + b, s^{2} k^{- t})

$(y_{T-t}|x_{T-t},a,b,k,s) \sim Normal(ax_{T-t}+b,s^{2}k^{-t})$

Bezeichnet und Wir haben eine gemeinsame Log-Wahrscheinlichkeit von: $Y\equiv\{y_{T},y_{T-1},\dots,y_{1}\}$ $X\equiv\{x_{T},x_{T-1},\dots,x_{1}\}$

\log [p (Y | X, a, b, k, s)] = - \frac{1}{2} (T \log (2 π s^{2} k^{- t}) + \sum_{t = 0}^{T - 1} \frac{(y_{T - t} - a x_{T - t} - b)^{2}}{s^{2} k^{- t}})

$\log\left[p(Y|X,a,b,k,s)\right]=-\frac{1}{2}\left(T\log(2\pi s^{2} k^{-t})+\sum_{t=0}^{T-1}\frac{(y_{T-t}-ax_{T-t}-b)^{2}}{s^{2}k^{-t}}\right)$

Um also die Maximum-Likelihood-Schätzungen von und $a$ $b$ , haben Sie die folgende Zielfunktion:

\sum_{t = 0}^{T - 1} k^{t} (y_{T - t} - a x_{T - t} - b)^{2}

$\sum_{t=0}^{T-1}k^{t}(y_{T-t}-ax_{T-t}-b)^{2}$

Welches ist das, was du suchst?

— Wahrscheinlichkeitslogik
quelle