Was Sie haben, ist eine zeitliche Abfolge von Ereignissen. Zögern Sie also nicht, sie Zeitreihen zu nennen!
Clustering in Zeitreihen hat zwei verschiedene Bedeutungen:
- Segmentierung von Zeitreihen, dh Sie möchten eine einzelne Zeitreihe nach internen Ähnlichkeiten in verschiedene Zeitintervalle unterteilen.
- Zeitreihen-Clustering, dh Sie haben mehrere Zeitreihen und möchten verschiedene Cluster nach Ähnlichkeiten zwischen ihnen finden.
Ich nehme an, Sie meinen den zweiten und hier ist mein Vorschlag:
Sie haben viele Fahrzeuge und viele Beobachtungen pro Fahrzeug, dh Sie haben viele Fahrzeuge. Sie haben also mehrere Matrizen (jedes Fahrzeug ist eine Matrix) und jede Matrix enthält N Zeilen (Anzahl der Beobachtungen) und T Spalten (Zeitpunkte). Ein Vorschlag könnte darin bestehen, PCA auf jede Matrix anzuwenden, um die Dimensionalität zu verringern und Daten im PC-Raum zu beobachten und festzustellen, ob zwischen verschiedenen Beobachtungen innerhalb einer Matrix (eines Fahrzeugs) sinnvolle Beziehungen bestehen . Dann können Sie jede Beobachtung für alle Fahrzeuge aufeinander setzen und eine Matrix erstellen und PCA darauf anwenden, um die Beziehungen einer einzelnen Beobachtung zwischen verschiedenen Fahrzeugen zu sehen.
Wenn Sie keine negativen Werte haben, wird die Matrixfaktorisierung zur Dimensionsreduzierung von Matrixformulardaten dringend empfohlen.
Ein weiterer Vorschlag könnte darin bestehen, alle Matrizen übereinander zu legen und einen N x M x T- Tensor zu erstellen, wobei N die Anzahl der Fahrzeuge, M die Anzahl der Beobachtungen und T die zeitliche Abfolge ist und die Tensor-Zerlegung angewendet wird , um Beziehungen global zu sehen.
Ein sehr guter Ansatz für das Zeitreihen-Clustering wird in diesem Dokument gezeigt, in dem die Implementierung unkompliziert ist.
Ich hoffe es hat geholfen!
Viel Glück :)
BEARBEITEN
Wie Sie bereits erwähnt haben, meinen Sie Zeitreihensegmentierung. Ich füge dies der Antwort hinzu.
Die Zeitreihensegmentierung ist das einzige Clustering-Problem, das eine Grundwahrheit für die Bewertung hat. Tatsächlich betrachten Sie die Erzeugungsverteilung hinter den Zeitreihen und analysieren ich empfehlen , diese , diese , diese , diese , diese und diese , wo Ihr Problem umfassend untersucht. Speziell die letzte und die Doktorarbeit.
Viel Glück!