Frage an die erfahrenen Data Miner da draußen:
Angesichts dieses Szenarios:
- Es gibt N Einkaufswagen
- Jeder Einkaufswagen ist mit einer beliebigen Anzahl von M Artikeln aus einem unendlich großen Satz gefüllt (mit der aktuellen Datenmenge, die ich habe, kann diese beliebige Anzahl Zahlen um 1500 treffen).
- Die Reihenfolge, in der jeder Wagen gefüllt wird, ist von Bedeutung
- Es gibt andere Attribute wie die Geolokalisierung des Käufers, aber diese können (und werden derzeit) verworfen werden, um den Algorithmus zu vereinfachen
Ich muss einfach:
- Identifizieren Sie zu einem bestimmten Zeitpunkt, wenn nur die bestellten Sätze von Artikeln in jedem Wagen enthalten sind, "ähnliche" Wagen ohne vorherige Kenntnis der Klassenetiketten
- Nachdem eine bestimmte Datenmenge erfasst wurde und ein Plack die Daten durchgearbeitet und Beschriftungen zugewiesen hat, erstellen Sie einen Klassifizierer, der schnell mit zukünftigen unsichtbaren Daten arbeiten kann
Erster Ansatz:
- Bisher konzentrierte sich mein Ansatz auf den ersten Punkt. Meine Methode verwendet k-means Clustering und behandelt die sequentielle Natur der Daten mithilfe einer Distanzmatrix, die durch Berechnung der Hamming-Distanz zwischen Wagen generiert wird. Auf diese Weise unterscheidet sich [Apfel, Banane, Birne] von [Birne, Apfel, Banane], aber [Apfel, Banane, Birne] unterscheidet sich weniger von [Apfel, Banane, Antilope]. Der geeignete Wert von k wird durch Untersuchung des Silhouette-Koeffizienten bestimmt. Die daraus generierten Cluster scheinen sinnvoll zu sein, aber die Laufzeit meiner Methode ist definitiv unerschwinglich, da mein Datensatz skaliert.
Frage:
- Würde jemand Vorschläge für einen neuen Data Miner für dieses Problem haben?
Bearbeitungen mit mehr Infos:
- Ich habe Vorschläge gefunden, die die Verwendung von n-Gramm-Funktionen und deren paarweisen Vergleich in Betracht ziehen. Ein Problem, das ich diesbezüglich habe, ist die Reihenfolge: Wird die Reihenfolge der Sequenzen beibehalten, wenn n-Gramm-Modelle verwendet werden? Ich sehe auch, dass Leistungsprobleme bei dieser Methode eine größere Möglichkeit darstellen.