Statistiken und Big Data large-data

1

Wie berechnet man ein Genauigkeitsmaß basierend auf RMSE? Ist mein großer Datensatz normal verteilt?

Ich habe mehrere Datensätze in der Größenordnung von Tausenden von Punkten. Die Werte in jedem Datensatz sind X, Y, Z und beziehen sich auf eine Koordinate im Raum. Der Z-Wert repräsentiert einen Höhenunterschied am Koordinatenpaar (x, y). In meinem GIS-Bereich wird der Höhenfehler in RMSE normalerweise durch Subtrahieren des Grundwahrheitspunkts …

9 normal-distribution large-data

3

Wie kann man schnell wichtige Variablen aus einem sehr großen Datensatz auswählen?

Ich habe einen Datensatz mit ungefähr 2.000 binären Variablen / 200.000 Zeilen und versuche, eine einzelne binär abhängige Variable vorherzusagen. Mein Hauptziel in dieser Phase ist nicht die Genauigkeit der Vorhersage, sondern die Identifizierung, welche dieser Variablen wichtige Prädiktoren sind. Ich möchte die Anzahl der Variablen in meinem endgültigen Modell …

9 machine-learning data-mining large-data

3

Platzsparendes Clustering

Die meisten Clustering-Algorithmen, die ich gesehen habe, beginnen mit der Erstellung von Abständen zwischen allen Punkten, was bei größeren Datensätzen problematisch wird. Gibt es einen, der das nicht tut? Oder ist es eine Art partieller / ungefährer / gestaffelter Ansatz? Welcher Clustering-Algorithmus / welche Implementierung benötigt weniger als O (n …

9 clustering algorithms large-data

2

Kann eine Stichprobe für eine ANOVA oder einen T-Test zu groß sein?

Ich habe fast eine Million Datensätze und wenn ich einen mittleren Vergleichstest durchführe, entweder ANOVA oder einen T-Test, erhalte ich ein Signifikanzniveau von weniger als 0,0001 für SPSS. Ich mache mir Sorgen, dass meine Stichprobe so groß ist, dass sie sich beim Vergleich der Mittel natürlich als signifikant unterschiedlich herausstellt. …

9 anova t-test effect-size large-data

4

Schätzen der Dimension eines Datensatzes

Ein Kollege für angewandte Statistik hat mir folgendes geschickt: "Ich habe mich gefragt, ob Sie eine Möglichkeit kennen, die wahre Dimension der Domäne einer Funktion herauszufinden. Zum Beispiel ist ein Kreis eine eindimensionale Funktion in einem zweidimensionalen Raum. Wenn ich nicht weiß, wie man zeichnet, gibt es eine Eine Statistik, …

9 large-data

1

Kann ich bei jeder MCMC-Iteration einen großen Datensatz unterabtasten?

Problem: Ich möchte eine Gibbs-Stichprobe durchführen, um einen posterioren Wert über einen großen Datensatz abzuleiten. Leider ist mein Modell nicht sehr einfach und daher ist die Abtastung zu langsam. Ich würde Variations- oder Parallelansätze in Betracht ziehen, aber bevor ich so weit gehe ... Frage: Ich möchte wissen, ob ich …

8 sampling bootstrap mcmc large-data gibbs

1

Zufällige Gesamtstruktur in einer Big Data-Einstellung

Ich habe einen Datensatz mit 5.818.446 Zeilen und 51 Spalten, von denen 50 Prädiktoren sind. Meine Antwort ist quantitativ, daher interessiere ich mich für ein Regressionsmodell. Ich versuche, mithilfe des Caret-Pakets einen zufälligen Wald an meine Daten anzupassen. Ich habe jedoch nicht genug RAM, um dies zu tun. Ich habe …

8 r random-forest large-data

5

Warum werden irrelevante Regressoren in großen Stichproben statistisch signifikant?

Ich versuche, statistische Signifikanz, Effektgrößen und dergleichen besser zu verstehen. Ich habe die Auffassung (vielleicht ist es falsch), dass selbst irrelevante Regressoren in großen Stichproben häufig statistisch signifikant werden . Mit irrelevant meine ich, dass es keine sachliche Erklärung gibt, warum der Regressor mit der abhängigen Variablen in Beziehung gesetzt …

8 regression statistical-significance effect-size large-data

2

Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?

Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

1

Sternkoordinaten vs. Hauptkomponentenanalyse

Ich bereite gerade eine Präsentation für einen Universitätskurs in "Visual Data Analysis" vor. Und eines meiner Themen ist die Visualisierung "Star Coordinate". Sternkoordinaten Da Sternkoordinaten eine Transformation hochdimensionaler Daten durchführen und die bekannte PCA-Technik dies auch tut, frage ich mich, ob PCA durch Sternkoordinaten nachgeahmt werden kann. Ich denke daran, …

8 data-visualization pca large-data

2

R als Alternative zu SAS für große Datenmengen

Ich weiß, dass R für die Analyse großer Datenmengen nicht besonders hilfreich ist, da R alle Daten in den Speicher lädt, während SAS eine sequentielle Analyse durchführt. Es gibt jedoch Pakete wie bigmemory, mit denen Benutzer die Analyse großer Datenmengen (statistische Analysen) in R effizienter durchführen können. Ich wollte wissen, …

8 r sas large-data

3

Was nützen dichte Matrizen in der Statistik?

OK, ich bin kein Statistiker (nicht einmal in der Nähe). Ich bin ein High Performance Computing-Forscher und wollte ein paar Testfälle für große (größer als 5000 x 5000) dichte Matrizen. Ich hatte hier und an einigen anderen Orten gefragt , aber nie eine Antwort von einem Statistiker erhalten. Ich bin …

8 large-data matrix

3

Regressionen für Stichproben aus einer sehr großen Datei durchführen: Sind die Mittelwerte und SEs der Stichprobenkoeffizienten konsistente Schätzer?

Ich habe eine ziemlich kleine Datei mit 100 Millionen Zeilen und 30 Spalten oder so, auf der ich mehrere Regressionen ausführen möchte. Ich habe speziellen Code zum Ausführen der Regressionen für die gesamte Datei, aber ich möchte zufällige Stichproben aus der Datei ziehen und sie in R ausführen. Die Strategie …

8 r regression large-data bootstrap

2

Wie kann ich betrügerische Variablen in großen Datenmengen schnell erkennen?

Angenommen, wir haben einen Datensatz mit Millionen Zeilen und Tausenden Spalten und die Aufgabe ist die binäre Klassifizierung. Wenn wir ein logistisches Regressionsmodell ausführen, ist die Leistung viel besser als erwartet, z. B. eine nahezu perfekte Klassifizierung. Wir vermuten, dass die Daten einige betrügerische Variablen enthalten. Wie kann ich sie …

7 algorithms linear large-data high-dimensional

Als «large-data» getaggte Fragen