Eine Möglichkeit besteht darin, die Häufigkeit aller Kombinationen von Produktkäufen zu ermitteln. Wählen Sie die wenigen häufigsten Kombinationen aus. Erstellen Sie dann ein Regressionsmodell, um die ausgewählte Kombination jedes Einzelnen vorherzusagen. Mit einer binären logistischen Regression könnten Sie beispielsweise den Kauf von a) Weißwein, Brie, Erdbeeren und Trauben im Vergleich zu b) Rotwein, Cheddar und Gouda vorhersagen. Bei mehr als zwei solchen Kombinationen oder wenn Sie die Kategorie "Keine der oben genannten" einschließen möchten, ist die multinomiale logistische Regression wahrscheinlich die Methode der Wahl.
Beachten Sie, dass das Einbeziehen nur der gängigen Combos bedeutet, dass Sie jeweils mehr brauchbare Zahlen haben, die anderen jedoch zumindest von diesem Verfahren ausschließen. Ich könnte mir 7 Gegenstände vorstellen, die Dutzende von Combos erstellen, die jeweils von mindestens ein paar Leuten ausgewählt wurden. Dies sind möglicherweise zu viele Kategorien für Ihre Stichprobengröße. Wenn eine Kombination nur von wenigen Personen ausgewählt würde, hätte Ihr Modell nur sehr wenige Informationen, mit denen Sie arbeiten könnten.
Eine andere Möglichkeit besteht darin, mithilfe der Clusteranalyse einige Sätze von Artikeln zu ermitteln, die in der Regel zusammen gekauft werden. Mit 7 Elementen erhalten Sie wahrscheinlich weniger als 4 Cluster, was Ihre Aufgabe möglicherweise erleichtert. Wenn Sie die Clusteranalyse versuchen und feststellen, dass die Ergebnisse nicht funktionieren, gibt es keinen Grund, warum Sie sie verwenden müssen: Kehren Sie einfach zu dem oben beschriebenen frequenzbasierten Ansatz zurück. In diesem Fall suchen Sie, wenn ich Sie richtig lese, nach den aussagekräftigsten und interessantesten Kategorien, und um dies festzustellen, müssen Sie sich keine Gedanken über Freiheitsgrade oder Mehrfachvergleiche oder solche Bedenken machen, die möglicherweise zutreffen Wenn Sie bei der Durchführung eines Inferenztests mehrere Methoden ausprobiert haben.