Statistiken und Big Data sample

25

Ich habe an einer neuen Methode zum Analysieren und Analysieren von Datensätzen gearbeitet, um Untergruppen einer Population zu identifizieren und zu isolieren, ohne vorher die Merkmale einer Untergruppe zu kennen. Während die Methode mit Stichproben künstlicher Daten (dh Datensätzen, die speziell zum Identifizieren und Trennen von Teilmengen der Bevölkerung erstellt …

98 dataset sample population teaching

5

Was ist der Unterschied zwischen einer Population und einer Stichprobe?

Was ist der Unterschied zwischen einer Population und einer Stichprobe? Welche gemeinsamen Variablen und Statistiken werden für jede verwendet und in welcher Beziehung stehen diese zueinander?

38 standard-deviation variance sample population

3

R: Zufällige Gesamtstruktur, die NaN / Inf im Fehler "fremder Funktionsaufruf" trotz fehlender NaNs im Datensatz auslöst [geschlossen]

Ich verwende Caret, um eine kreuzvalidierte zufällige Gesamtstruktur über ein Dataset auszuführen. Die Y-Variable ist ein Faktor. In meinem Datensatz befinden sich keine NaNs, Infs oder NAs. Allerdings bekomme ich, wenn ich den zufälligen Wald laufen lasse Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

3

Was ist, wenn Ihre Zufallsstichprobe eindeutig nicht repräsentativ ist?

Was ist, wenn Sie eine Zufallsstichprobe entnehmen und feststellen, dass diese eindeutig nicht repräsentativ ist, wie in einer aktuellen Frage . Was ist zum Beispiel, wenn die Populationsverteilung bei 0 symmetrisch sein soll und die Stichprobe, die Sie zufällig ziehen, ungleiche positive und negative Beobachtungen aufweist und die Ungleichheit statistisch …

28 sampling experiment-design inference sample

1

Berechnung der Wiederholbarkeit von Effekten aus einem früheren Modell

Ich bin gerade auf diese Arbeit gestoßen , in der beschrieben wird, wie die Wiederholbarkeit (auch bekannt als Zuverlässigkeit, auch bekannt als Intraclass-Korrelation) einer Messung über Mixed-Effects-Modellierung berechnet wird. Der R-Code wäre: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

Können Freiheitsgrade eine nicht ganzzahlige Zahl sein?

Wenn ich GAM verwende, erhalte ich einen DF-Rest von (letzte Zeile im Code). Was bedeutet das? Über das GAM-Beispiel hinausgehend: Kann die Anzahl der Freiheitsgrade im Allgemeinen eine nicht ganzzahlige Zahl sein?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

9

Wie finde ich heraus, welche Art von Verteilung diese Daten zu Ping-Antwortzeiten darstellt?

Ich habe einen realen Prozess abgetastet, Netzwerk-Ping-Zeiten. Die "Umlaufzeit" wird in Millisekunden gemessen. Die Ergebnisse werden in einem Histogramm aufgezeichnet: Ping-Zeiten haben einen Mindestwert, aber einen langen oberen Schwanz. Ich möchte wissen, um welche statistische Verteilung es sich handelt und wie man die Parameter abschätzt. Auch wenn es sich bei …

22 distributions sample-size sample normality-assumption distribution-identification

3

Bootstrap: das Problem der Überanpassung

Angenommen, man führt den sogenannten nichtparametrischen Bootstrap durch, indem man aus den ursprünglichen Beobachtungen jeweils Stichproben der Größe mit Ersetzung zieht . Ich glaube, dieses Verfahren entspricht der Schätzung der kumulativen Verteilungsfunktion durch das empirische cdf:BBBnnnnnn http://en.wikipedia.org/wiki/Empirical_distribution_function und dann Erhalten der Bootstrap-Abtastwerte durch Simulieren von Beobachtungen aus den geschätzten cdf …

14 bootstrap sample-size sample small-sample finite-population

2

Was ist der Unterschied zwischen Stichprobenvarianz und Stichprobenvarianz?

Was ist der Unterschied zwischen Stichprobenvarianz und Stichprobenvarianz? Sie scheinen gleich zu sein. Sind sie nicht

14 sampling variance sample

3

Verwenden Sie die mittlere Länge und das mittlere Gewicht, um den mittleren BMI zu berechnen?

Ist es gültig, die mittlere Länge ( ) und das mittlere Gewicht ( )) einer bestimmten Population zu verwenden, um den mittleren Body-Mass-Index ( ) für diese Population zu berechnen ?hhhwwwBMI=wh2BMI=wh2BMI = \frac{w}{h^2}

13 mean sample population

4

Ist eine quantitative Eigenschaft der Bevölkerung ein „Parameter“?

Ich bin relativ vertraut mit der Unterscheidung zwischen den Begriffen Statistik und Parameter. Ich sehe eine Statistik als den Wert, der durch Anwenden einer Funktion auf die Beispieldaten erhalten wird. Die meisten Beispiele für Parameter beziehen sich jedoch auf die Definition einer parametrischen Verteilung. Ein übliches Beispiel ist der Mittelwert …

13 estimation terminology sample population

1

Große asymptotische Stichprobe / Theorie - Warum sollte man sich darum kümmern?

Ich hoffe, dass diese Frage nicht als "zu allgemein" markiert wird, und hoffe, dass eine Diskussion in Gang kommt, von der alle profitieren. In der Statistik verbringen wir viel Zeit mit dem Erlernen großer Stichprobentheorien. Wir sind sehr daran interessiert, die asymptotischen Eigenschaften unserer Schätzer zu bewerten, einschließlich der Frage, …

13 sample asymptotics

1

LARS gegen Koordinatenabstieg für das Lasso

Welche Vor- und Nachteile hat die Verwendung von LARS [1] im Vergleich zur Verwendung der Koordinatenabsenkung für die Anpassung der L1-regulierten linearen Regression? Ich interessiere mich hauptsächlich für Leistungsaspekte (meine Probleme sind Nin der Regel Hunderttausende und p<20). Es sind jedoch auch andere Erkenntnisse erwünscht. edit: Seitdem ich die Frage …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

Sind Kaggle-Wettbewerbe nur zufällig gewonnen?

Kaggle-Wettbewerbe bestimmen die endgültigen Platzierungen auf der Grundlage eines durchgehaltenen Testsatzes. Ein durchgehaltener Testsatz ist eine Stichprobe; Es kann sein, dass es nicht repräsentativ für die zu modellierende Population ist. Da jede Einsendung wie eine Hypothese ist, hat der Algorithmus, der den Wettbewerb gewonnen hat, möglicherweise den Testsatz besser als …

12 machine-learning probability hypothesis-testing sample kaggle

2

Was ist der Unterschied zwischen Zufallsvariable und Zufallsstichprobe?

Diese beiden Ausdrücke verwirrten mich sehr, als ich Statistik lernte. Es scheint mir, dass es völlig andere Dinge sind. Eine Zufallsstichprobe besteht darin, eine Stichprobe zufällig aus einer Population zu entnehmen, während eine Zufallsvariable einer Funktion gleicht, die die Menge aller möglichen Ergebnisse eines Experiments einer reellen Zahl zuordnet. Sagen …

12 mathematical-statistics random-variable terminology sample

Als «sample» getaggte Fragen