Welche Statistiken werden unter Aggregation aufbewahrt?


12

Wenn wir über lange Zeitreihen mit hoher Auflösung und viel Rauschen verfügen, ist es oft sinnvoll, die Daten zu einer niedrigeren Auflösung zu aggregieren (z. B. tägliche bis monatliche Werte), um ein besseres Verständnis der Vorgänge zu erhalten und einige davon effektiv zu entfernen der Lärm.

Ich habe mindestens eine Veröffentlichung gesehen, in der dann einige Statistiken auf die aggregierten Daten angewendet werden, einschließlich eines für eine lineare Regression für eine separate Variable. Ist das gültig Ich hätte gedacht, dass der Mittelungsprozess das Ergebnis aufgrund des reduzierten Rauschens ein wenig verändern würde.r2

Können einige Statistiken im Allgemeinen auf aggregierte Zeitreihendaten angewendet werden, andere nicht? Wenn ja, welche? Vielleicht eine lineare Kombination?


Verwandte, siehe den ökologischen Irrtum .
Andy W

1
In Bezug auf den Kommentar von @cbeleites denke ich, dass es hier eine theoretische Antwort gibt - eine Erweiterung Ihres Vorschlags, dass Linearkombinationen erhalten bleiben. In der praktischen Anwendung ist es jedoch sehr schwierig, eine allgemeine Schlussfolgerung zur Gültigkeit eines Ansatzes zu ziehen, und es müsste ein konkretes Beispiel geben.
Jonathan

Antworten:


6

Ich denke, die Frage in der Überschrift ist zu weit gefasst, um sinnvoll beantwortet zu werden, zumal es wahrscheinlich sowohl auf die Aggregationsmethode als auch auf die fragliche Statistik ankommt.

  • Dies gilt sogar für den Mittelwert: Versuchen Sie, die Signalform und -intensität beizubehalten (z. B. Savitzky-Golay-Filter), oder versuchen Sie, den Bereich unter dem Signal beizubehalten (z. B. Löss)?

  • Lärmbezogene Statistiken sind offensichtlich betroffen: Dies ist normalerweise der Zweck der Aggregation.

Ich habe mindestens ein Dokument gesehen, das dann einige Statistiken auf die aggregierten Daten anwendet. [...] Ist das gültig? Ich hätte gedacht, dass der Mittelungsprozess das Ergebnis aufgrund des reduzierten Rauschens ein wenig verändern würde.

Diese Änderung ist höchstwahrscheinlich der Zweck der Aggregation.

Im Allgemeinen dürfen Sie eine Menge Dinge mit Ihren Daten tun, aber das müssen Sie

  • sag was du tust (und am liebsten auch warum du es tust)
  • die Qualität des resultierenden Modells zeigen (Test mit unabhängigen Daten)


n


5

YtXτm

Yt=α+βX¯t+ut,(1)

X¯t=1mh=0m1Xtmh.

tX30(t1)+1,...,X30t

Yt=α+βX¯t(w)+ut,(2)

mit

Xt(w)=h=1m1whXtmh.

whwh=g(h,α)gα

wh=1m

In einer Einstellung ohne Regression gibt es Ergebnisse, die zeigen, dass die Aggregation die Eigenschaften der Zeitreihen ändern kann. Wenn Sie beispielsweise AR (1) -Prozesse mit Kurzzeitgedächtnis aggregieren (die Korrelation zwischen zwei Beobachtungen der Zeitreihe verschwindet schnell, wenn der Abstand zwischen ihnen vergrößert wird), können Sie einen Prozess mit Langzeitgedächtnis erhalten.

Zusammenfassend lässt sich also sagen, dass die Gültigkeit der Anwendung von Statistiken auf aggregierte Daten eine statistische Frage ist. Abhängig vom Modell können Sie eine Hypothese erstellen, ob es sich um eine gültige Anwendung handelt oder nicht.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.