Als «large-data» getaggte Fragen

"Große Datenmenge" bezieht sich auf Situationen, in denen die Anzahl der Beobachtungen (Datenpunkte) so groß ist, dass Änderungen in der Art und Weise erforderlich sind, wie der Datenanalyst die Analyse betrachtet oder durchführt. (Nicht zu verwechseln mit "hoher Dimensionalität".)

1
Wie berechnet man ein Genauigkeitsmaß basierend auf RMSE? Ist mein großer Datensatz normal verteilt?
Ich habe mehrere Datensätze in der Größenordnung von Tausenden von Punkten. Die Werte in jedem Datensatz sind X, Y, Z und beziehen sich auf eine Koordinate im Raum. Der Z-Wert repräsentiert einen Höhenunterschied am Koordinatenpaar (x, y). In meinem GIS-Bereich wird der Höhenfehler in RMSE normalerweise durch Subtrahieren des Grundwahrheitspunkts …

3
Wie kann man schnell wichtige Variablen aus einem sehr großen Datensatz auswählen?
Ich habe einen Datensatz mit ungefähr 2.000 binären Variablen / 200.000 Zeilen und versuche, eine einzelne binär abhängige Variable vorherzusagen. Mein Hauptziel in dieser Phase ist nicht die Genauigkeit der Vorhersage, sondern die Identifizierung, welche dieser Variablen wichtige Prädiktoren sind. Ich möchte die Anzahl der Variablen in meinem endgültigen Modell …

3
Platzsparendes Clustering
Die meisten Clustering-Algorithmen, die ich gesehen habe, beginnen mit der Erstellung von Abständen zwischen allen Punkten, was bei größeren Datensätzen problematisch wird. Gibt es einen, der das nicht tut? Oder ist es eine Art partieller / ungefährer / gestaffelter Ansatz? Welcher Clustering-Algorithmus / welche Implementierung benötigt weniger als O (n …


4
Schätzen der Dimension eines Datensatzes
Ein Kollege für angewandte Statistik hat mir folgendes geschickt: "Ich habe mich gefragt, ob Sie eine Möglichkeit kennen, die wahre Dimension der Domäne einer Funktion herauszufinden. Zum Beispiel ist ein Kreis eine eindimensionale Funktion in einem zweidimensionalen Raum. Wenn ich nicht weiß, wie man zeichnet, gibt es eine Eine Statistik, …


1
Zufällige Gesamtstruktur in einer Big Data-Einstellung
Ich habe einen Datensatz mit 5.818.446 Zeilen und 51 Spalten, von denen 50 Prädiktoren sind. Meine Antwort ist quantitativ, daher interessiere ich mich für ein Regressionsmodell. Ich versuche, mithilfe des Caret-Pakets einen zufälligen Wald an meine Daten anzupassen. Ich habe jedoch nicht genug RAM, um dies zu tun. Ich habe …

5
Warum werden irrelevante Regressoren in großen Stichproben statistisch signifikant?
Ich versuche, statistische Signifikanz, Effektgrößen und dergleichen besser zu verstehen. Ich habe die Auffassung (vielleicht ist es falsch), dass selbst irrelevante Regressoren in großen Stichproben häufig statistisch signifikant werden . Mit irrelevant meine ich, dass es keine sachliche Erklärung gibt, warum der Regressor mit der abhängigen Variablen in Beziehung gesetzt …

2
Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?
Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

1
Sternkoordinaten vs. Hauptkomponentenanalyse
Ich bereite gerade eine Präsentation für einen Universitätskurs in "Visual Data Analysis" vor. Und eines meiner Themen ist die Visualisierung "Star Coordinate". Sternkoordinaten Da Sternkoordinaten eine Transformation hochdimensionaler Daten durchführen und die bekannte PCA-Technik dies auch tut, frage ich mich, ob PCA durch Sternkoordinaten nachgeahmt werden kann. Ich denke daran, …

2
R als Alternative zu SAS für große Datenmengen
Ich weiß, dass R für die Analyse großer Datenmengen nicht besonders hilfreich ist, da R alle Daten in den Speicher lädt, während SAS eine sequentielle Analyse durchführt. Es gibt jedoch Pakete wie bigmemory, mit denen Benutzer die Analyse großer Datenmengen (statistische Analysen) in R effizienter durchführen können. Ich wollte wissen, …
8 r  sas  large-data 

3
Was nützen dichte Matrizen in der Statistik?
OK, ich bin kein Statistiker (nicht einmal in der Nähe). Ich bin ein High Performance Computing-Forscher und wollte ein paar Testfälle für große (größer als 5000 x 5000) dichte Matrizen. Ich hatte hier und an einigen anderen Orten gefragt , aber nie eine Antwort von einem Statistiker erhalten. Ich bin …

3
Regressionen für Stichproben aus einer sehr großen Datei durchführen: Sind die Mittelwerte und SEs der Stichprobenkoeffizienten konsistente Schätzer?
Ich habe eine ziemlich kleine Datei mit 100 Millionen Zeilen und 30 Spalten oder so, auf der ich mehrere Regressionen ausführen möchte. Ich habe speziellen Code zum Ausführen der Regressionen für die gesamte Datei, aber ich möchte zufällige Stichproben aus der Datei ziehen und sie in R ausführen. Die Strategie …

2
Wie kann ich betrügerische Variablen in großen Datenmengen schnell erkennen?
Angenommen, wir haben einen Datensatz mit Millionen Zeilen und Tausenden Spalten und die Aufgabe ist die binäre Klassifizierung. Wenn wir ein logistisches Regressionsmodell ausführen, ist die Leistung viel besser als erwartet, z. B. eine nahezu perfekte Klassifizierung. Wir vermuten, dass die Daten einige betrügerische Variablen enthalten. Wie kann ich sie …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.