Exponentielle Glättung ist eine klassische Technik, die bei der Vorhersage von nicht kausalen Zeitreihen verwendet wird. Solange Sie es nur für einfache Prognosen verwenden und keine geglätteten Anpassungen innerhalb der Stichprobe als Eingabe für ein anderes Data Mining oder einen anderen statistischen Algorithmus verwenden, trifft Briggs 'Kritik nicht zu. (Dementsprechend bin ich skeptisch, wenn ich es verwende, "um geglättete Daten für die Präsentation zu erstellen", wie Wikipedia sagt - dies kann irreführend sein, wenn man die geglättete Variabilität verbirgt.)
Hier ist eine Einführung in Exponential Smoothing.
Und hier ist ein (10-jähriger, aber immer noch relevanter) Übersichtsartikel.
EDIT: Es scheint Zweifel an der Gültigkeit von Briggs 'Kritik zu geben, die möglicherweise etwas von seiner Verpackung beeinflusst wird . Ich stimme voll und ganz zu, dass Briggs 'Ton abrasiv sein kann. Ich möchte jedoch veranschaulichen, warum ich denke, dass er einen Punkt hat.
Im Folgenden simuliere ich 10.000 Zeitreihenpaare mit jeweils 100 Beobachtungen. Alle Serien sind weißes Rauschen ohne jegliche Korrelation. Die Durchführung eines Standardkorrelationstests sollte daher p-Werte ergeben, die gleichmäßig auf [0,1] verteilt sind. Wie es tut (Histogramm links unten).
Angenommen, wir glätten zuerst jede Reihe und wenden den Korrelationstest auf die geglätteten Daten an. Es zeigt sich etwas Überraschendes: Da die Daten sehr variabel sind, erhalten wir viel zu kleine p-Werte . Unser Korrelationstest ist stark voreingenommen. Wir werden uns also einer Assoziation zwischen den Originalserien zu sicher sein, wie Briggs sagt.
Die Frage hängt wirklich davon ab, ob wir die geglätteten Daten für die Vorhersage verwenden, in welchem Fall die Glättung gültig ist, oder ob wir sie als Eingabe in einen analytischen Algorithmus einbeziehen. In diesem Fall simuliert das Entfernen der Variabilität eine höhere Sicherheit in unseren Daten als gerechtfertigt. Diese ungerechtfertigte Sicherheit in den Eingabedaten führt zu den Endergebnissen und muss berücksichtigt werden, da sonst alle Schlussfolgerungen zu sicher sind. (Und natürlich werden wir auch zu kleine Vorhersageintervalle bekommen, wenn wir ein Modell verwenden, das auf "überhöhter Sicherheit" für die Vorhersage basiert.)
n.series <- 1e4
n.time <- 1e2
p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
A <- rnorm(n.time)
B <- rnorm(n.time)
p.corr[ii] <- cor.test(A,B)$p.value
p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}
par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")