Glätten - wann und wann nicht?

Auf William Briggs 'Blog gibt es einen ziemlich alten Beitrag , der sich mit den Fallstricken befasst, Daten zu glätten und diese geglätteten Daten zur Analyse zu bringen. Das Hauptargument ist nämlich:

Wenn Sie in einem Moment des Wahnsinns Zeitreihendaten glätten und diese als Eingabe für andere Analysen verwenden, erhöhen Sie die Wahrscheinlichkeit, sich selbst zu täuschen, dramatisch! Dies liegt daran, dass die Glättung Störsignale hervorruft - Signale, die für andere Analysemethoden realistisch erscheinen. Egal, was Sie von Ihren endgültigen Ergebnissen zu sicher sein werden!

Ich bemühe mich jedoch, umfassende Diskussionen darüber zu finden, wann zu glätten ist und wann nicht.

Ist es nur verpönt, zu glätten, wenn diese geglätteten Daten als Eingabe für andere Analysen verwendet werden, oder gibt es andere Situationen, in denen das Glätten nicht empfohlen wird? Umgekehrt gibt es Situationen, in denen eine Glättung empfohlen wird?

time-series smoothing

— NickB2014
quelle

Die meisten Anwendungen der Zeitreihenanalyse sind eine Art Glättung, auch wenn sie nicht als solche beschrieben werden. Die Glättung kann als Erkundungs- oder Zusammenfassungsinstrument verwendet werden - in einigen Bereichen ist dies sogar die wichtigste oder nur verwendete Methode - oder zum Entfernen von Merkmalen, die für einen bestimmten Zweck als störend oder von zweitrangigem Interesse angesehen werden.

— Nick Cox

Haftungsausschluss: Ich habe nicht den gesamten angeführten Blogbeitrag gelesen. Ich konnte die elementaren Tippfehler ("times series", "Monte Carol") nicht überwinden und sein Ton und Stil waren nicht attraktiv. Ich würde jedoch nicht empfehlen, die Prinzipien der Zeitreihenanalyse oder der Statistik generell über einen Blog von irgendjemandem zu lernen.

— Nick Cox

@NickCox Einverstanden, und vor allem nicht von einem Blog, der eine Axt zum Schleifen zu haben scheint.

— Hong Ooi

@ HongOoi Ja! Ich habe einige ausgewählte Sätze aus einem Entwurf meines Kommentars gelöscht, der nicht weniger einschätzungswürdig schien als der Blog selbst.

— Nick Cox

Ich würde alles, was Briggs schreibt, mit einem Körnchen Salz nehmen.

— Momo

Antworten:

Exponentielle Glättung ist eine klassische Technik, die bei der Vorhersage von nicht kausalen Zeitreihen verwendet wird. Solange Sie es nur für einfache Prognosen verwenden und keine geglätteten Anpassungen innerhalb der Stichprobe als Eingabe für ein anderes Data Mining oder einen anderen statistischen Algorithmus verwenden, trifft Briggs 'Kritik nicht zu. (Dementsprechend bin ich skeptisch, wenn ich es verwende, "um geglättete Daten für die Präsentation zu erstellen", wie Wikipedia sagt - dies kann irreführend sein, wenn man die geglättete Variabilität verbirgt.)

Hier ist eine Einführung in Exponential Smoothing.

Und hier ist ein (10-jähriger, aber immer noch relevanter) Übersichtsartikel.

EDIT: Es scheint Zweifel an der Gültigkeit von Briggs 'Kritik zu geben, die möglicherweise etwas von seiner Verpackung beeinflusst wird . Ich stimme voll und ganz zu, dass Briggs 'Ton abrasiv sein kann. Ich möchte jedoch veranschaulichen, warum ich denke, dass er einen Punkt hat.

Im Folgenden simuliere ich 10.000 Zeitreihenpaare mit jeweils 100 Beobachtungen. Alle Serien sind weißes Rauschen ohne jegliche Korrelation. Die Durchführung eines Standardkorrelationstests sollte daher p-Werte ergeben, die gleichmäßig auf [0,1] verteilt sind. Wie es tut (Histogramm links unten).

Angenommen, wir glätten zuerst jede Reihe und wenden den Korrelationstest auf die geglätteten Daten an. Es zeigt sich etwas Überraschendes: Da die Daten sehr variabel sind, erhalten wir viel zu kleine p-Werte . Unser Korrelationstest ist stark voreingenommen. Wir werden uns also einer Assoziation zwischen den Originalserien zu sicher sein, wie Briggs sagt.

Die Frage hängt wirklich davon ab, ob wir die geglätteten Daten für die Vorhersage verwenden, in welchem Fall die Glättung gültig ist, oder ob wir sie als Eingabe in einen analytischen Algorithmus einbeziehen. In diesem Fall simuliert das Entfernen der Variabilität eine höhere Sicherheit in unseren Daten als gerechtfertigt. Diese ungerechtfertigte Sicherheit in den Eingabedaten führt zu den Endergebnissen und muss berücksichtigt werden, da sonst alle Schlussfolgerungen zu sicher sind. (Und natürlich werden wir auch zu kleine Vorhersageintervalle bekommen, wenn wir ein Modell verwenden, das auf "überhöhter Sicherheit" für die Vorhersage basiert.)

n.series <- 1e4
n.time <- 1e2

p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
    A <- rnorm(n.time)
    B <- rnorm(n.time)
    p.corr[ii] <- cor.test(A,B)$p.value
	p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}

par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")

p Werte

— S. Kolassa - Setzen Sie Monica wieder ein
quelle

Für eine gute Zeitreihenanalyse würde ich es als selbstverständlich ansehen, dass keine Glättung angezeigt wird, ohne dass auch die Rohdaten angezeigt werden.

— Nick Cox

Die Behauptung, dass die Glättung für eine Modellanalyse ungeeignet ist, verurteilt sie dazu, einen höheren mittleren quadratischen Fehler zu haben, als dies sonst der Fall wäre. Der mittlere quadratische Fehler oder MSE kann in drei Terme zerlegt werden, ein Quadrat aus einem Wert mit der Bezeichnung "Bias", einer Varianz und einem irreduziblen Fehler. (Dies wird in den folgenden Zitaten gezeigt.) Übermäßig geglättete Modelle weisen eine hohe Abweichung auf, selbst wenn sie eine geringe Abweichung aufweisen, und zu raue Modelle weisen eine hohe Abweichung und eine geringe Abweichung auf.

Daran ist überhaupt nichts Philosophisches. Es ist eine mathematische Charakterisierung. Dies hängt nicht vom Geräuschcharakter oder vom Charakter des Systems ab.

Sehen:

http://scott.fortmann-roe.com/docs/BiasVariance.html

https://galton.uchicago.edu/~lafferty/pdf/nonparam.pdf

http://www.inf.ed.ac.uk/teaching/courses/mlsc/Notes/Lecture4/BiasVariance.pdf (Dies hat die Ableitung der Zerlegung.)

http://www.cs.columbia.edu/~blei/fogm/2015F/notes/regularized-regression.pdf (Blei macht dasselbe auf andere Weise und bringt ein, was passiert, wenn man versucht, es vorherzusagen.)

Die klassische Statistik bestand fast immer auf unvoreingenommenen Schätzungen. Im Jahr 1955 zeigte der Statistiker Charles Stein aus Stanford, dass es Kombinationen von unverzerrten Schätzern gab, die für wichtige Sonderfälle eine niedrigere MSE aufwiesen, insbesondere für die sogenannten JAMES-STEIN-SCHÄTZER. Bradley Efron hat einen sehr aufschlussreichen Text über diese Revolution in Insight geschrieben: http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

— Jan Galkowski
quelle