Als «large-data» getaggte Fragen

"Große Datenmenge" bezieht sich auf Situationen, in denen die Anzahl der Beobachtungen (Datenpunkte) so groß ist, dass Änderungen in der Art und Weise erforderlich sind, wie der Datenanalyst die Analyse betrachtet oder durchführt. (Nicht zu verwechseln mit "hoher Dimensionalität".)

4
Wie projiziert man einen neuen Vektor auf den PCA-Raum?
Nach der Durchführung der Hauptkomponentenanalyse (PCA) möchte ich einen neuen Vektor auf den PCA-Raum projizieren (dh seine Koordinaten im PCA-Koordinatensystem finden). Ich habe PCA in R-Sprache mit berechnet prcomp. Jetzt sollte ich meinen Vektor mit der PCA-Rotationsmatrix multiplizieren können. Sollen die Hauptkomponenten in dieser Matrix in Zeilen oder Spalten angeordnet …
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
Führen wir wirklich multivariate Regressionsanalysen mit * Millionen * Koeffizienten / unabhängigen Variablen durch?
Ich verbringe einige Zeit damit, maschinelles Lernen zu lernen (entschuldige die Rekursion :), und ich bin fasziniert von der Faustregel , bei multivariater linearer Regression Gradient Descent anstelle der direkten Gleichungslösung für die Berechnung von Regressionskoeffizienten zu wählen. 10 , 000 - 1 , 000 , 00010,000-1,000,00010,000 - 1,000,000 In …

6
Out-of-Core-Datenanalyseoptionen
Ich benutze SAS seit fast 5 Jahren professionell. Ich habe es auf meinem Laptop installiert und muss häufig Datensätze mit 1.000 bis 2.000 Variablen und Hunderttausenden von Beobachtungen analysieren. Ich habe nach Alternativen zu SAS gesucht, mit denen ich Analysen mit ähnlich großen Datensätzen durchführen kann. Ich bin neugierig, was …
18 r  sas  large-data 

5
Poisson-Regression bei großen Datenmengen: Ist es falsch, die Maßeinheit zu ändern?
Aufgrund der Fakultät in einer Poisson-Verteilung wird es unpraktisch, Poisson-Modelle (beispielsweise unter Verwendung der maximalen Wahrscheinlichkeit) zu schätzen, wenn die Beobachtungen groß sind. Wenn ich zum Beispiel versuche, ein Modell zu schätzen, um die Anzahl der Selbstmorde in einem bestimmten Jahr zu erklären (es sind nur jährliche Daten verfügbar) und …


4
Wie kann ich meine Analyse der Auswirkungen der Reputation auf die Stimmabgabe verbessern?
Kürzlich hatte ich einige Analysen über die Auswirkungen von Reputation auf Upvotes durchgeführt (siehe Blog-Post ) und anschließend einige Fragen zu möglicherweise aufschlussreicheren (oder angemesseneren) Analysen und Grafiken. Also ein paar Fragen (und zögern Sie nicht, auf irgendjemanden zu antworten und die anderen zu ignorieren): In seiner aktuellen Inkarnation habe …

5
Eine gute Möglichkeit, viele Daten grafisch darzustellen
Ich arbeite an einem Projekt, das 14 Variablen und 345.000 Beobachtungen für Wohnungsdaten umfasst (z. B. Baujahr, Quadratmeterzahl, Verkaufspreis, Wohnbezirk usw.). Ich befasse mich mit dem Versuch, gute grafische Techniken und R-Bibliotheken zu finden, die nette Plott-Techniken enthalten. Ich sehe bereits, was in ggplot und lattice gut funktioniert, und ich …

4
Konfidenzintervalle bei sehr großen Stichproben
Meine Frage könnte wie folgt umformuliert werden: "Wie kann ein Stichprobenfehler mithilfe von Big Data bewertet werden?", Insbesondere für eine Zeitschriftenveröffentlichung. Hier ist ein Beispiel, um eine Herausforderung zu veranschaulichen. Aus einem sehr großen Datensatz (> 100000 eindeutige Patienten und deren verschriebene Medikamente aus 100 Krankenhäusern) wollte ich einen Anteil …


3
Cluster Big Data in R und ist Stichproben relevant?
Ich bin neu in der Datenwissenschaft und habe ein Problem beim Finden von Clustern in einem Datensatz mit 200.000 Zeilen und 50 Spalten in R. Da die Daten sowohl numerische als auch nominale Variablen enthalten, erscheinen Methoden wie K-means, die das euklidische Distanzmaß verwenden, nicht als geeignete Wahl. Ich wende …

5
Warum ist der Gradientenabstieg bei großen Datenmengen ineffizient?
Nehmen wir an, unser Datensatz enthält 1 Million Beispiele, dh , und wir möchten den Gradientenabstieg verwenden, um eine logistische oder lineare Regression für diesen Datensatz durchzuführen.x1,…,x106x1,…,x106x_1, \ldots, x_{10^6} Was macht die Gradientenabstiegsmethode ineffizient? Es sei daran erinnert, dass der Gradientenabstiegsschritt zum Zeitpunkt gegeben ist durch:ttt wt+1=wt+ηt∇f(x)wt+1=wt+ηt∇f(x)w_{t+1} = w_{t} + …

5
Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?
Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
Passgenauigkeit für sehr große Stichproben
Ich sammle jeden Tag sehr große Stichproben (> 1.000.000) von kategorialen Daten und möchte, dass die Daten zwischen den Tagen "signifikant" unterschiedlich aussehen, um Fehler bei der Datenerfassung zu erkennen. Ich dachte, ein guter Fit-Test (insbesondere ein G-Test) wäre eine gute Passform (Wortspiel beabsichtigt) dafür. Die erwartete Verteilung ergibt sich …



Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.