Als «large-data» getaggte Fragen

"Große Datenmenge" bezieht sich auf Situationen, in denen die Anzahl der Beobachtungen (Datenpunkte) so groß ist, dass Änderungen in der Art und Weise erforderlich sind, wie der Datenanalyst die Analyse betrachtet oder durchführt. (Nicht zu verwechseln mit "hoher Dimensionalität".)


4
Hypothesentest mit Big Data
Wie führen Sie Hypothesentests mit Big Data durch? Ich habe das folgende MATLAB-Skript geschrieben, um meine Verwirrung zu betonen. Es werden lediglich zwei Zufallsreihen generiert und eine einfache lineare Regression einer Variablen auf der anderen ausgeführt. Diese Regression wird mehrmals unter Verwendung verschiedener Zufallswerte durchgeführt und es werden Durchschnittswerte gemeldet. …


1
Umgang mit großen Datenmengen in R - Tutorials, Best Practices usw.
Ich bin ein R-Noob, der verschiedene Arten von Analysen für große Datenmengen in R durchführen muss. Als ich mich auf dieser Site und anderswo umsah, schien es mir, dass es hier viele esoterische und weniger bekannte Probleme gibt - wie zum Beispiel Welches Paket soll wann verwendet werden, welche Transformationen …
11 r  large-data 


3
Vergleichen verschachtelter binärer logistischer Regressionsmodelle, wenn
Um meine Frage besser zu stellen, habe ich einige der Ausgaben sowohl eines 16-Variablen-Modells ( fit) als auch eines 17-Variablen-Modells ( fit2) unten bereitgestellt (alle Prädiktorvariablen in diesen Modellen sind kontinuierlich, wobei der einzige Unterschied zwischen diesen Modellen darin besteht, dass fitdies nicht der Fall ist enthalten Variable 17 (var17)): …

2
Ist es sinnvoll, Konfidenzintervalle zu berechnen und Hypothesen zu testen, wenn Daten aus der gesamten Bevölkerung verfügbar sind?
Ist es sinnvoll, Konfidenzintervalle zu berechnen und Hypothesen zu testen, wenn Daten aus der gesamten Bevölkerung verfügbar sind? Meiner Meinung nach lautet die Antwort nein, da wir die wahren Werte der Parameter genau berechnen können. Aber wie hoch ist dann der maximale Anteil an Daten aus der ursprünglichen Population, der …

3
Wie können große Zeitreihendaten interaktiv angezeigt werden?
Ich beschäftige mich oft mit einer angemessenen Menge an Zeitreihendaten, 50-200 Millionen Doppel mit zugehörigen Zeitstempeln und möchte sie dynamisch visualisieren. Gibt es eine Software, um dies effektiv zu tun? Wie wäre es mit Bibliotheken und Datenformaten? Der Zoom-Cache ist ein Beispiel für eine Bibliothek, die sich auf große Zeitreihen …


3
Ansätze beim Lernen aus riesigen Datensätzen?
Grundsätzlich gibt es zwei gängige Methoden, um gegen große Datenmengen zu lernen (wenn Sie mit zeitlichen / räumlichen Einschränkungen konfrontiert sind): Betrug :) - Verwenden Sie nur eine "überschaubare" Teilmenge für das Training. Der Genauigkeitsverlust kann aufgrund des Gesetzes zur Verringerung der Rendite vernachlässigbar sein - die Vorhersageleistung des Modells …


2
Gaußsche Prozessregression für hochdimensionale Datensätze
Ich wollte nur sehen, ob jemand Erfahrung mit der Anwendung der Gaußschen Prozessregression (GPR) auf hochdimensionale Datensätze hat. Ich untersuche einige der verschiedenen spärlichen GPR-Methoden (z. B. spärliche Pseudo-Eingänge GPR), um herauszufinden, was für hochdimensionale Datensätze funktionieren könnte, bei denen die Auswahl von Merkmalen idealerweise Teil des Parameterauswahlprozesses ist. Vorschläge …



2
Parametrisches, semiparametrisches und nichtparametrisches Bootstrapping für gemischte Modelle
Die folgenden Transplantate stammen aus diesem Artikel . Ich bin ein Neuling im Bootstrap und versuche, das parametrische, semiparametrische und nichtparametrische Bootstrapping-Bootstrapping für ein lineares gemischtes Modell mit R bootPaket zu implementieren. R-Code Hier ist mein RCode: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.