Wie gruppiere ich Zeitreihen?


21

Ich habe eine Frage zur Clusteranalyse. Es gibt 3000 Unternehmen, die nach ihrem Stromverbrauch über 5 Jahre gruppiert werden müssen. Jedes Unternehmen hat Werte für jede Stunde während 5 Jahren. Ich würde gerne herausfinden, ob einige Unternehmen über den Zeitraum die gleiche Nutzungsstärke aufweisen. Die Ergebnisse sollten für die tägliche Vorhersage des Stromverbrauchs verwendet werden. Wenn Sie Ideen zum Clustering von Zeitreihen in SPSS haben, teilen Sie diese bitte mit mir.


1
Ich würde vorschlagen, dass Sie sich die entsprechenden Links auf der rechten Seite ansehen. Es gibt einige sehr ähnliche Fragen, siehe Ist es möglich, Zeitreihencluster basierend auf der Kurvenform zu erstellen? und Modellieren von Längsschnittdaten, bei denen der Effekt der Zeit in funktionaler Form zwischen Individuen für nur zwei Beispiele variiert .
Andy W

Prozessähnlichkeit in SAS kann Zeitreihen gruppieren.
Prognostiker

Antworten:


11

A) Nehmen Sie sich viel Zeit für die Vorverarbeitung der Daten. Die Vorverarbeitung macht 90% Ihrer Arbeit aus.

B) Wählen Sie ein geeignetes Ähnlichkeitsmaß für die Zeitreihe. Beispielsweise kann hier der Schwellenüberquerungsabstand eine gute Wahl sein. Sie werden wahrscheinlich keine dynamische Zeitverzerrungsentfernung wünschen, es sei denn, Sie haben unterschiedliche Zeitzonen. Das Überschreiten der Schwelle kann geeigneter sein, um zeitliche Muster zu erkennen, ohne auf die tatsächliche Größe zu achten (die wahrscheinlich von Unternehmen zu Unternehmen sehr unterschiedlich sein wird).

C) Clustern Sie die resultierende Dissimlaritätsmatrix mit Methoden wie hierarchischem Clustering oder DBSCAN, die mit beliebigen Distanzfunktionen arbeiten können.


Können Sie erklären, warum die dynamische Zeitverzerrungsentfernung keine gute Option für das Clustering von Zeitreihen ist?
Hardik Gupta

Das war keine allgemeine Aussage. Ob es gut ist oder nicht, hängt davon ab, ob Sie Time Warping zulassen möchten oder nicht.
Anony-Mousse

7

Möglicherweise möchten Sie die stündlichen Zeitreihen mit täglicher, wöchentlicher und jährlicher Periodizität prognostizierenfür eine Diskussion der stündlichen Daten mit täglichen Daten und Feiertagen / Regressoren. Sie haben 5 Jahre Daten, während die andere Diskussion 883 Tageswerte umfasste. Was ich vorschlagen würde, ist, dass Sie eine stündliche Vorhersage erstellen könnten, die Regressoren wie den Wochentag einbezieht. Woche des Jahres und Feiertage unter Verwendung der täglichen Gesamtsummen als zusätzlicher Prädiktor. Auf diese Weise hätten Sie 24 Modelle für jedes der 3.000 Unternehmen. Nun möchten Sie stundenweise die 3.000 Modelle unter Verwendung einer gemeinsamen ARIMAX-Struktur schätzen, die das Reaktionsmuster um jeden der Regressoren, den Wochentag und die Änderungen am Wochentag, berücksichtigt Parameter und wöchentliche Indikatoren bei der Isolierung von Ausreißern. Dann könnten Sie die Parameter global unter Verwendung aller 3000 Unternehmen abschätzen. Führen Sie einen Chow-Test durch http://en.wikipedia.org/wiki/Chow_testFür die Konstanz der Parameter und bei Zurückweisung gruppieren sich die Unternehmen zu homogenen Gruppen. Ich habe dies als eindimensionale Clusteranalyse bezeichnet. Da SPSS nur über sehr eingeschränkte Funktionen in Zeitreihen verfügt, sollten Sie nach Software suchen.


1
"Vanille" scheint ein seltsames Wort für R zu sein; nicht klar auf die Übersetzung in üblicher R-Terminologie. Jede Unterscheidung zwischen Basis-R- und zusätzlichen von CRAN bereitgestellten Paketen ist für erfahrene Benutzer oder auch für Anfänger nicht von Vorteil, da sie gleichermaßen kostenlos und gleichermaßen zugänglich sind. Mein Eindruck ist, dass jemand, der Zugang zu SPSS hatte, ziemlich leicht sagen kann, dass in SPSS derzeit etwas ohne Programmierung nicht möglich ist. Dasselbe über R zu sagen, setzt voraus, dass Sie mit allen Zeitreihenpaketen vertraut sind.
Nick Cox
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.