LÖSS das erlaubt Diskontinuitäten


14
  • Gibt es eine Modellierungstechnik wie LOESS , die keine, eine oder mehrere Unstetigkeiten zulässt, bei denen der Zeitpunkt der Unstetigkeiten im Voraus nicht bekannt ist?
  • Wenn eine Technik vorhanden ist, gibt es eine vorhandene Implementierung in R?

1
Diskontinuitäten bei bekannten x-Werten oder bei unbekannten x-Werten? (bekannt x ist einfach genug)
Glen_b -Reinstate Monica

@glen Ich habe die Frage aktualisiert: Ich interessiere mich für Situationen, in denen das Timing von Diskontinuitäten nicht im Voraus bekannt ist.
Jeromy Anglim

Dies mag eine strittige / dumme Frage sein, aber Sie sagen "Timing": Ist dies für die Verwendung mit Zeitreihen? Ich glaube, die meisten der folgenden Antworten gehen davon aus ("changepoint, etc"), obwohl LOESS auch in Situationen angewendet werden kann, in denen keine Zeitreihen vorliegen und Diskontinuitäten bestehen. Meiner Ansicht nach.
Wayne

Antworten:


15

Es hört sich so an, als ob Sie mehrere Änderungspunkte erfassen möchten, gefolgt von einer unabhängigen Glättung innerhalb jedes Segments. (Die Erkennung kann online sein oder nicht, aber Ihre Bewerbung ist wahrscheinlich nicht online.) Es gibt eine Menge Literatur dazu; Internetsuchen sind fruchtbar.

  • DA Stephens schrieb 1994 eine nützliche Einführung in die Erkennung von Bayes'schen Änderungspunkten (App. Stat. 43 # 1 S. 159-178): JSTOR ).
  • In jüngerer Zeit hat Paul Fearnhead gute Arbeit geleistet (z. B. exakte und effiziente Bayes'sche Inferenz für Probleme mit mehreren Änderungspunkten) , Stat Comput (2006) 16: 203-213: Free PDF ).
  • Es gibt einen rekursiven Algorithmus, der auf einer schönen Analyse von D Barry & JA Hartigan basiert
    • Produktpartitionsmodelle für Änderungspunktmodelle, Ann. Stat. 20: 260-279: JSTOR ;
    • Eine Bayes'sche Analyse für Änderungspunktprobleme, JASA 88: 309-319: JSTOR .
  • Eine Implementierung des Barry & Hartigan-Algorithmus ist in O. Seidou & TBMJ Ourda, Rekursionsbasierte Mehrfachänderungspunkterkennung in multivariater linearer Regression und Anwendung auf Flussströme, Water Res., Dokumentiert . Res., 2006: Kostenloses PDF .

Ich habe nicht lange nach R-Implementierungen gesucht (ich hatte vor einiger Zeit eine in Mathematica programmiert), würde mich aber über eine Referenz freuen, wenn Sie eine finden.


3
Ich fand das bcp R-Paket jstatsoft.org/v23/i03/paper, das den Barry & Hartigan-Algorithmus implementiert
Jeromy Anglim

@Jeromy: Vielen Dank für das R-Paket und für das Einfügen der Links zu den Referenzen.
Whuber

7

Machen Sie es mit Koenckers Regression, siehe Seite 18 dieser Vignette

http://cran.r-project.org/web/packages/quantreg/vignettes/rq.pdf

Als Antwort auf Whuber letzter Kommentar:

Dieser Schätzer ist wie folgt definiert.

, x ( i )x ( i - 1 )xR ,x(i)x(i1)i

,ei:=yiβix(i)β0

, z - = max ( - z , 0 ) ,z+=max(z,0)z=max(z,0)

, λ 0τ(0,1)λ0

min.βRn|τ,λi=1nτei++i=1n(1τ)ei+λi=2n|βiβi1|

gibt das gewünschte Quantil an (dh im Beispiel τ = 0,9 ). λ gibt die Anzahl der Haltepunkte an: für λττ=0.9λλ large this estimator shrinks to no break point (corresponding to the classicla linear quantile regression estimator).

Quantile Smoothing Splines Roger Koenker, Pin Ng, Stephen Portnoy Biometrika, Vol. 81, No. 4 (Dec., 1994), pp. 673-680

PS: there is a open acess working paper with the same name by the same others but it's not the same thing.


That's a neat idea: thanks for the reference. However, the residuals to that particular fit look pretty bad, which makes me wonder how well it identifies potential changepoints.
whuber

whuber: i do not know how much you are familiar with the theory of quantile regression. These lines have a major advantage over splines: they do not assume any error distribution (i.e. they do not assume the residuals to be Gaussian).
user603

@kwak This looks interesting. Not assuming a normal error distribution would be useful for one of my applications.
Jeromy Anglim

Indeed, what you get out of this estimation are actual conditionnal quantiles: in a nutshell, these are to splines/LOESS-regressions what boxplots are to the couple (mean, s.d.): a much richer view of your data. They also retain there validity in non gaussian context (such as assymetric errors,...).
user603

@kwak: The residuals are heavily correlated with the x-coordinate. For example, there are long runs of negative or small positive residuals. Whether they have a Gaussian distribution or not, then, is immaterial (as well as irrelevant in any exploratory analysis): this correlation shows that the fit is poor.
whuber

6

Here are some methods and associated R packages to solve this problem

Wavelet thresolding estimation in regression allows for discontonuities. You may use the package wavethresh in R.

A lot of tree based methods (not far from the idea of wavelet) are usefull when you have disconitnuities. Hence package treethresh, package tree !

In the familly of "local maximum likelihood" methods... among others: Work of Pozhel and Spokoiny: Adaptive weights Smoothing (package aws) Work by Catherine Loader: package locfit

I guess any kernel smoother with locally varying bandwidth makes the point but I don't know R package for that.

note: I don't really get what is the difference between LOESS and regression... is it the idea that in LOESS alrgorithms should be "on line" ?


1
Re LOESS: Perhaps my terminology is not quite right. By LOESS I'm referring to models that predict Y from X using some form of localised curve fitting. e.g., as seen in most of these graphs: google.com/…
Jeromy Anglim

2

It should be possible to code a solution in R using the non-linear regression function nls, b splines (the bs function in the spline package, for example) and the ifelse function.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.