Ich arbeite mit Sequenzdaten, bei denen es sich um lange Listen von Malware-Win-API-Aufrufen handelt. Ich versuche, das Problem der Identifizierung von "Malware-Verhalten" in eine Suche nach sequentiellen Mustern umzuwandeln. Ich behandle jeden API-Aufruf als einen einzelnen Artikel. Die Anzahl der verschiedenen möglichen Elemente (API-Aufrufe) ist ziemlich groß.
Wenn ich nun den SPADE-Algorithmus anwende (siehe auch Zaki, SPADE: Ein effizienter Algorithmus für das Mining häufiger Sequenzen , Maschinelles Lernen, 42, 31–60, 2001) , stoße ich auf Speicherprobleme. Gibt es eine bessere Alternative, um sequentielle Muster unter großen Sequenzen mit hohem Wortschatz zu finden?