Ich werde @suncoolsu Kommentar zweitens: Die Dimensionalität Ihres Datensatzes ist nicht das einzige Kriterium, das Sie auf eine bestimmte Software ausrichten sollte. Wenn Sie beispielsweise nur ein unbeaufsichtigtes Clustering planen oder PCA verwenden möchten, gibt es mehrere spezielle Tools, die mit großen Datenmengen umgehen, wie sie in Genomstudien häufig vorkommen.
Nun R (64 Bit) verarbeitet große Daten ziemlich gut, und Sie haben immer noch die Möglichkeit , zu verwenden Plattenspeicher anstelle von RAM - Zugriff, aber CRAN Aufgabenansicht sehen High Performance Computing und Parallel R . Standard-GLM bietet Platz für 20.000 Obs. (aber siehe auch speedglm ) innerhalb einer angemessenen Zeit, wie unten gezeigt:
> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
user system elapsed
0.361 0.018 0.379
Zur genaueren Veranschaulichung verwendete ich R zur Verarbeitung und Analyse großer genetischer Daten (800 Individuen x 800.000 SNPs , wobei das statistische Hauptmodell eine geschichtete GLM mit mehreren Kovariaten (2 Minuten) war; dies wurde dank effizienter R und R ermöglicht C-Codes im snpMatrix- Paket verfügbar (im Vergleich dazu dauerte dieselbe Art von Modell mit einer speziellen C ++ - Software ( plink ) ungefähr 8 Minuten . Ich arbeitete auch an einer klinischen Studie (12.000 Patienten x 50 interessierende Variablen) und R passte zu meinen Bedürfnissen Soweit ich weiß, ist das lme4- Paket die einzige Software, die es ermöglicht, ein Modell mit gemischten Effekten mit unausgeglichenen und großen Datenmengen zu kombinieren (wie dies bei einer groß angelegten Bildungsbewertung der Fall ist).
Stata / SE ist eine weitere Software, die große Datenmengen verarbeiten kann . SAS und SPSS sind dateibasierte Software, sodass sie große Datenmengen verarbeiten können. Eine vergleichende Überprüfung der Software für die Datenerfassung finden Sie in Data Mining-Tools: Welche ist die beste für CRM . Für die Visualisierung gibt es ebenfalls zahlreiche Optionen. Vielleicht ist ein guter Anfang die Grafik großer Datensätze: Visualisierung einer Million ( im JSS von P. Murrell geprüft ) und aller verwandten Themen auf dieser Site.