Ich habe eine Reihe von Zeitreihendaten. Jede Serie deckt den gleichen Zeitraum ab, obwohl die tatsächlichen Daten in jeder Zeitreihe möglicherweise nicht alle genau aufeinander abgestimmt sind.
Das heißt, wenn die Zeitreihe in eine 2D-Matrix eingelesen würde, würde dies ungefähr so aussehen:
date T1 T2 T3 .... TN
1/1/01 100 59 42 N/A
2/1/01 120 29 N/A 42.5
3/1/01 110 N/A 12 36.82
4/1/01 N/A 59 40 61.82
5/1/01 05 99 42 23.68
...
31/12/01 100 59 42 N/A
etc
Ich möchte ein R-Skript schreiben, das die Zeitreihen {T1, T2, ... TN} in 'Familien' unterteilt, wobei eine Familie als eine Reihe von Reihen definiert wird, die "dazu neigen, sich in Sympathie zu bewegen".
Für den 'Clustering'-Teil muss ich eine Art Distanzmaß auswählen / definieren. Ich bin mir nicht ganz sicher, wie ich vorgehen soll, da ich es mit Zeitreihen zu tun habe und ein Paar von Reihen, die sich in einem Intervall mit Sympathie bewegen, dies möglicherweise in einem nachfolgenden Intervall nicht tut.
Ich bin mir sicher, dass es hier weitaus mehr erfahrene / klügere Leute gibt als ich. Daher wäre ich dankbar für Vorschläge, Ideen, welchen Algorithmus / welche Heuristik Sie für die Entfernungsmessung verwenden sollten und wie Sie diese beim Clustering der Zeitreihen verwenden können.
Ich vermute, dass es hierfür KEINE etablierte robuste statistische Methode gibt, daher würde ich mich sehr interessieren, wie die Leute dieses Problem angehen / lösen - wenn sie wie ein Statistiker denken.