Ich habe Daten, die äquivalent sind zu:
shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...
Ich möchte diesen Datensatz analysieren, um eine Korrelationsmatrix zu erhalten, die ähnliche Auswirkungen hat: Wenn Sie x gekauft haben, werden Sie wahrscheinlich y kaufen.
Wie kann ich mit Python (oder vielleicht etwas anderem als MATLAB) vorgehen? Einige grundlegende Richtlinien oder Hinweise darauf, wo ich suchen sollte, würden helfen.
Vielen Dank,
Bearbeiten - Was ich gelernt habe:
Diese Art von Problemen wird als Assoziationsregelerkennung bezeichnet. Wikipedia hat einen guten Artikel , der einige der gängigen Algorithmen dafür behandelt. Der klassische Algorithmus dafür scheint Apriori zu sein, aufgrund von Agrawal et. al.
Das führte mich zu Orange , einem Data Mining-Paket mit Python-Schnittstelle. Für Linux scheint die beste Möglichkeit zur Installation die Verwendung der mitgelieferten Datei setup.py aus dem Quellcode zu sein
Orange liest standardmäßig Eingaben aus Dateien, die auf eine von mehreren unterstützten Arten formatiert sind.
Schließlich ist ein einfaches Lernen der Apriori-Assoziationsregeln in Orange einfach .
arules
wäre es einen Blick wert. Vielleicht ist "Assoziationsregeln" ein guter Suchbegriff