In Bezug auf die Warenkorbanalyse denke ich, dass das Hauptziel darin besteht, die häufigsten Kombinationen von Produkten zu individualisieren, die von den Kunden gekauft wurden. Sie association rules
stellen hier die natürlichste Methode dar (tatsächlich wurden sie tatsächlich für diesen Zweck entwickelt). Die Analyse der von den Kunden gekauften Produktkombinationen und der Häufigkeit, mit der diese Kombinationen wiederholt werden, führt zu einer Regel vom Typ "Wenn Bedingung, dann Ergebnis" mit einer entsprechenden Messung der Interessantheit. Sie können auch in Betracht Log-linear models
ziehen, um die Assoziationen zwischen den betrachteten Variablen zu untersuchen.
In Bezug auf das Clustering sind hier einige Informationen aufgeführt, die nützlich sein können:
Zuerst überlegen Variable clustering
. Das Variablenclustering wird zur Bewertung der Kollinearität und Redundanz sowie zur Aufteilung von Variablen in Cluster verwendet, die als einzelne Variable bewertet werden können, was zu einer Datenreduzierung führt. Suchen Sie nach der varclus
Funktion (Paket Hmisc in R)
Bewertung der clusterweisen Stabilität: Funktion clusterboot
{R package fpc}
Entfernungsbasierte Statistiken für die Clustervalidierung: Funktion cluster.stats
{R-Paket fpc}
Verwenden Sie, wie bereits erwähnt, die Silhouette-Breiten, um die beste Anzahl von Clustern zu ermitteln. Schau dir das an . Bezüglich der Silhouettenbreiten siehe auch die optsil- Funktion.
Schätzen Sie die Anzahl der Cluster in einem Datensatz über die Lückenstatistik
Zur Berechnung von Unähnlichkeitsindizes und Abstandsmaßen siehe dsvdis und vegdist
Der EM-Clustering-Algorithmus kann entscheiden, wie viele Cluster durch Kreuzvalidierung erstellt werden sollen (wenn Sie nicht im Voraus angeben können, wie viele Cluster generiert werden sollen). Obwohl garantiert wird, dass der EM-Algorithmus gegen ein Maximum konvergiert, ist dies ein lokales Maximum und muss nicht unbedingt mit dem globalen Maximum übereinstimmen. Um das globale Maximum besser erreichen zu können, sollte der gesamte Vorgang mehrmals wiederholt werden, wobei die Parameterwerte zunächst unterschiedlich geschätzt werden. Die Gesamt-Log-Likelihood-Zahl kann verwendet werden, um die verschiedenen endgültigen Konfigurationen zu vergleichen: Wählen Sie einfach das größte der lokalen Maxima . Eine Implementierung des EM-Clusterers finden Sie im Open-Source-Projekt WEKA
Dies ist auch ein interessanter Link.
Suchen Sie auch hier nachFinding the Right Number of Clusters in k-Means and EM Clustering: v-Fold Cross-Validation
Schließlich können Sie Clustering-Ergebnisse mit Clusterfly untersuchen