Statistiken und Big Data distributions

5

Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?

Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

3

Ist es besser, Verteilungen basierend auf Theorie, Anpassung oder etwas anderem auszuwählen?

Dies grenzt an eine philosophische Frage, aber ich bin daran interessiert, wie andere mit mehr Erfahrung über die Auswahl von Distributionen denken. In einigen Fällen scheint es klar zu sein, dass die Theorie am besten funktioniert (die Schwanzlängen von Mäusen sind wahrscheinlich normal verteilt). In vielen Fällen gibt es wahrscheinlich …

12 distributions overfitting heuristic

2

Wie ist die Beziehung zwischen Mittelwert und Median bei Daten mit Linksschrägstellung?

Ich denke, der Median Mittelwert.≤≤\leq Ist das der Fall?

12 distributions self-study mean skewness median

2

Verhältnis von Summe von Normal zu Summe von Würfeln von Normal

Bitte helfen Sie mir, die einschränkende Verteilung (als ) der folgenden zu finden: wo uiv .n→∞n→∞n \rightarrow \inftyUn=X1+X2+…+XnX31+X32+…X3n,Un=X1+X2+…+XnX13+X23+…Xn3, U_n = \frac{X_1 + X_2 + \ldots + X_n}{X_1^3 + X_2^3 + \ldots X_n^3},XiXiX_iN(0,1)N(0,1)N(0,1)

12 distributions normal-distribution asymptotics

2

Empirische Verteilungsalternative

KOPFGELD: Das volle Kopfgeld wird an jemanden vergeben, der einen Verweis auf ein veröffentlichtes Papier bereitstellt, in dem der unten stehende Schätzer verwendet oder erwähnt wird.F~F~\tilde{F} Motivation: Dieser Abschnitt ist wahrscheinlich nicht wichtig für Sie und ich vermute, er wird Ihnen nicht dabei helfen, das Kopfgeld zu erhalten. Da jedoch …

12 distributions bernoulli-distribution stratification rejection-sampling ecdf

2

Wie schätze ich das dritte Quartil der gruppierten Daten?

Gibt es einen technischen Trick, um das dritte Quartil zu bestimmen, wenn es zu einem offenen Intervall gehört, das mehr als ein Viertel der Bevölkerung enthält (also kann ich das Intervall nicht schließen und die Standardformel verwenden)? Bearbeiten Falls ich etwas missverstanden habe, werde ich mehr oder weniger vollständigen Kontext …

12 distributions histogram descriptive-statistics

2

Wahrscheinlichkeitsverteilung bei gegebenem Datensatz automatisch bestimmen

Gegeben ein Datensatz: x <- c(4.9958942,5.9730174,9.8642732,11.5609671,10.1178216,6.6279774,9.2441754,9.9419299,13.4710469,6.0601435,8.2095239,7.9456672,12.7039825,7.4197810,9.5928275,8.2267352,2.8314614,11.5653497,6.0828073,11.3926117,10.5403929,14.9751607,11.7647580,8.2867261,10.0291522,7.7132033,6.3337642,14.6066222,11.3436587,11.2717791,10.8818323,8.0320657,6.7354041,9.1871676,13.4381778,7.4353197,8.9210043,10.2010750,11.9442048,11.0081195,4.3369520,13.2562675,15.9945674,8.7528248,14.4948086,14.3577443,6.7438382,9.1434984,15.4599419,13.1424011,7.0481925,7.4823108,10.5743730,6.4166006,11.8225244,8.9388744,10.3698150,10.3965596,13.5226492,16.0069239,6.1139247,11.0838351,9.1659242,7.9896031,10.7282936,14.2666492,13.6478802,10.6248561,15.3834373,11.5096033,14.5806570,10.7648690,5.3407430,7.7535042,7.1942866,9.8867927,12.7413156,10.8127809,8.1726772,8.3965665) .. Ich möchte die am besten passende Wahrscheinlichkeitsverteilung (Gamma, Beta, Normal, Exponentiell, Poisson, Chi-Quadrat usw.) mit einer Schätzung der Parameter bestimmen. Die Frage auf dem folgenden Link, wo eine Lösung mit R bereitgestellt wird, ist mir bereits bekannt: /programming/2661402/given-a-set-of-random-numbers-drawn-from-a- kontinuierliche-univariate-verteilung-f die beste vorgeschlagene lösung …

12 r matlab distributions

1

Zerlegen der Normalverteilung

Gibt es eine Nur-Positiv-Verteilung, so dass die Differenz zweier unabhängiger Stichproben von dieser Verteilung normal verteilt ist? Wenn ja, hat es eine einfache Form?

12 distributions probability

1

Schätzung der Verteilung anhand von Daten

Ich habe eine Stichprobe von Daten, die Rvon generiert wurden rnorm(50,0,1), daher nehmen die Daten offensichtlich eine normale Verteilung an. Allerdings Rnicht „kennt“ diese verteilungs Informationen über die Daten. Gibt es eine Methode R, mit der sich abschätzen lässt, von welcher Verteilung meine Stichprobe stammt? Wenn nicht, werde ich die …

12 r distributions

1

Identität der Moment erzeugenden Funktionen

Gibt es nicht identische Verteilungen, die zufällig die gleiche momenterzeugende Funktion haben?

12 distributions moments mgf

3

Wie sind die Verteilungen im positiven k-dimensionalen Quadranten mit parametrisierbarer Kovarianzmatrix?

Nach der Frage von zzk zu seinem Problem mit negativen Simulationen frage ich mich, welche Verteilungsfamilien für den positiven k-dimensionalen Quadranten parametrisiert sind, für den die Kovarianzmatrix kann.Rk+R+k\mathbb{R}_+^kΣΣ\Sigma Wie mit zzk besprochen, funktioniert das Anwenden der linearen Transformation ab einer Verteilung auf nicht.Rk+R+k\mathbb{R}_+^kX⟶Σ1/2(X−μ)+μX⟶Σ1/2(X−μ)+μX \longrightarrow\Sigma^{1/2} (X-\mu) + \mu

12 distributions multivariate-analysis covariance

3

Berechnen des Datenmodus, der aus einer kontinuierlichen Verteilung abgetastet wird

Was sind die besten Methoden, um den 'Modus' von Daten anzupassen, die aus einer kontinuierlichen Verteilung entnommen wurden? Da der Modus für eine kontinuierliche Verteilung technisch undefiniert ist (oder?), Frage ich mich wirklich, wie Sie den gängigsten Wert finden. Wenn Sie davon ausgehen, dass die übergeordnete Verteilung Gauß ist, können …

12 distributions fitting mode

3

Clustering Wahrscheinlichkeitsverteilungen - Methoden & Metriken?

Ich habe einige Datenpunkte, die jeweils 5 Vektoren agglomerierter diskreter Ergebnisse enthalten, wobei die Ergebnisse jedes Vektors durch eine andere Verteilung generiert werden (die spezifische Art, von der ich nicht sicher bin, ist Weibull, wobei der Formparameter etwa exponentiell zur Potenz variiert) Gesetz (1 bis 0, ungefähr).) Ich versuche, einen …

12 distributions clustering feature-selection kolmogorov-smirnov k-means

3

Formel in geschlossener Form für die Verteilungsfunktion einschließlich Schiefe und Kurtosis?

Gibt es so eine Formel? Gibt es bei einer Reihe von Daten, für die der Mittelwert, die Varianz, die Schiefe und die Kurtosis bekannt sind oder gemessen werden können, eine einzige Formel, die zur Berechnung der Wahrscheinlichkeitsdichte eines Wertes verwendet werden kann, von dem angenommen wird, dass er aus den …

12 distributions pdf kurtosis skewness

4

Analysieren von Winddaten mit R

Hallo, ich analysiere Winddaten, um die Energie einer Windkraftanlage abzuschätzen. Ich habe 10 Jahre Winddaten genommen und ein Histogramm erstellt. Meine zweite Stufe bestand darin, eine Weibull-Verteilung an die Daten anzupassen. Ich habe R mit dem Paket verwendet lmom, um die Weibul-Form zu berechnen und zu skalieren. Dies ist der …

12 r distributions

Als «distributions» getaggte Fragen