Ich bin neu in der Datenwissenschaft und habe ein Problem beim Finden von Clustern in einem Datensatz mit 200.000 Zeilen und 50 Spalten in R.
Da die Daten sowohl numerische als auch nominale Variablen enthalten, erscheinen Methoden wie K-means, die das euklidische Distanzmaß verwenden, nicht als geeignete Wahl. Ich wende mich also PAM, Agnes und Hclust zu, die eine Distanzmatrix als Eingabe akzeptieren.
Die Daisy-Methode kann mit gemischten Daten arbeiten, aber die Distanzmatrix ist einfach zu groß: 200.000 mal 200.000 ist viel größer als 2 ^ 31-1 (die Vektorlängenbegrenzung vor R 3.0.0.)
Das gestern veröffentlichte neue R 3.0.0 unterstützt lange Vektoren mit einer Länge von mehr als 2 ^ 31-1. Für eine Doppelmatrix von 200.000 mal 200.000 ist jedoch ein kontinuierlicher Arbeitsspeicher von mehr als 16 GB erforderlich, der auf meinem Computer nicht möglich ist.
Ich lese über Parallel-Computing und Big-Memory-Pakete und bin nicht sicher, ob sie helfen werden: Wenn ich Daisy verwende, wird eine große Matrix generiert, die sowieso nicht in den Speicher passt.
Ich habe auch über den Beitrag über Sampling gelesen: Ist Sampling in der Zeit von 'Big Data' relevant?
Ist es in meinem Fall relevant, Stichproben für den Datensatz zu verwenden, die Stichprobe zu einem Cluster zusammenzufassen und dann auf die Struktur des gesamten Datensatzes zu schließen?
Können Sie mir bitte einen Vorschlag machen? Vielen Dank!
Über meine Maschine:
R Version 3.0.0 (2013-04-03)
Plattform: x86_64-w64-mingw32 / x64 (64-Bit)
Betriebssystem: Windows 7 64bit
RAM: 16,0 GB