Ich baue oft ein Modell (Klassifizierung oder Regression) auf, in dem ich einige Prädiktorvariablen habe, bei denen es sich um Sequenzen handelt, und ich habe versucht, technische Empfehlungen zu finden, um sie bestmöglich zusammenzufassen und als Prädiktoren in das Modell aufzunehmen.
Angenommen, es wird ein Modell erstellt, um vorherzusagen, ob ein Kunde das Unternehmen in den nächsten 90 Tagen verlassen wird (jederzeit zwischen t und t + 90; also ein binäres Ergebnis). Einer der verfügbaren Prädiktoren ist die Höhe des finanziellen Saldos des Kunden für die Zeiträume t_0 bis t-1. Möglicherweise handelt es sich hierbei um monatliche Beobachtungen für die letzten 12 Monate (dh 12 Messungen).
Ich suche nach Möglichkeiten, Features aus dieser Serie zu konstruieren. Ich verwende Beschreibungen der einzelnen Kundenserien, wie z. B. Mittelwert, Hoch, Niedrig, Standardentwicklung, und passe eine OLS-Regression an, um den Trend zu ermitteln. Sind ihre anderen Methoden zur Berechnung von Merkmalen? Andere Maßstäbe für Veränderung oder Volatilität?
HINZUFÜGEN:
Wie in einer Antwort unten erwähnt, habe ich auch in Betracht gezogen (aber vergessen, hier hinzuzufügen), Dynamic Time Warping (DTW) und dann hierarchisches Clustering in der resultierenden Distanzmatrix zu verwenden - eine bestimmte Anzahl von Clustern zu erstellen und dann die Cluster-Mitgliedschaft als Feature zu verwenden. Die Bewertung von Testdaten müsste wahrscheinlich einem Prozess folgen, bei dem die DTW für neue Fälle und die Cluster-Zentroide durchgeführt wurde - wobei die neuen Datenreihen mit ihren nächsten Zentroiden abgeglichen wurden ...