Statistiken und Big Data proportion

3

Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse

Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

2

Welche Beziehung besteht zwischen einem Chi-Quadrat-Test und einem Test mit gleichen Anteilen?

Angenommen, ich habe drei Populationen mit vier sich gegenseitig ausschließenden Merkmalen. Ich nehme Zufallsstichproben aus jeder Population und erstelle eine Kreuztabelle oder Häufigkeitstabelle für die von mir gemessenen Merkmale. Habe ich recht, wenn ich sage: Wenn ich testen möchte, ob eine Beziehung zwischen den Populationen und den Merkmalen besteht (z. …

52 chi-squared proportion contingency-tables z-test

4

Exakter Binomialtest mit zwei Stichprobenanteilen in R (und einigen seltsamen p-Werten)

Ich versuche die folgende Frage zu lösen: Spieler A hat 17 von 25 Spielen gewonnen, während Spieler B 8 von 20 Spielen gewonnen hat. Gibt es einen signifikanten Unterschied zwischen beiden Verhältnissen? Das, was in R zu tun ist, ist das Folgende: > prop.test(c(17,8),c(25,20),correct=FALSE) 2-sample test for equality of proportions …

23 r hypothesis-testing statistical-significance binomial proportion

6

Mittelwertparadoxon - Wie heißt das?

Ich habe einen Datensatz. Sagen Sie Beobachtungen und Variablen:3101010333 obs A B C 1 0 0 1 2 0 1 0 3 1 0 1 4 1 1 0 5 1 0 1 6 1 0 0 7 1 1 0 8 0 0 1 9 0 1 1 10 …

22 proportion descriptive-statistics paradox

3

Sicheres Bestimmen des Stichprobenumfangs für A / B-Tests

Ich bin ein Softwareentwickler, der ein A / B-Testwerkzeug bauen möchte. Ich habe keine soliden Statistiken, habe aber in den letzten Tagen viel gelesen. Ich folge der hier beschriebenen Methodik und werde die relevanten Punkte unten zusammenfassen. Mit diesem Tool können Designer und Domain-Experten eine Website so konfigurieren, dass der …

22 hypothesis-testing statistical-significance proportion ab-test

4

Was sind die korrekten Werte für Präzision und Rückruf in Randfällen?

Präzision ist definiert als: p = true positives / (true positives + false positives) Ist es richtig, dass sich die Genauigkeit 1 nähert true positivesund false positivessich 0 nähert? Gleiche Frage zum Rückruf: r = true positives / (true positives + false negatives) Ich führe derzeit einen statistischen Test durch, …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

1

Auf welcher Ebene ist ein

HINTERGRUND: Sicher überspringen - dient als Referenz und zur Rechtfertigung der Frage. Die Eröffnung dieses Papiers lautet: "Karl Pearsons berühmter Chi-Quadrat-Kontingenztest leitet sich aus einer anderen Statistik ab, die als z-Statistik bezeichnet wird und auf der Normalverteilung basiert. Die einfachsten Versionen von χ2χ2\chi^2 können mathematisch mit äquivalenten z-Tests identisch sein. …

15 chi-squared proportion z-test

5

Kann Chi-Quadrat verwendet werden, um die Proportionen zu vergleichen?

Ich habe gelesen, dass der Chi-Quadrat-Test nützlich ist, um festzustellen, ob sich eine Stichprobe erheblich von einer Reihe von erwarteten Werten unterscheidet. Hier ist zum Beispiel eine Tabelle mit Ergebnissen einer Umfrage zu den Lieblingsfarben der Menschen (n = 15 + 13 + 10 + 17 = 55 Befragte insgesamt): …

13 chi-squared hypothesis-testing proportion

1

Was ist der Unterschied zwischen "Zählproportionen" und "kontinuierlichen Proportionen"?

In einem Kommentar zu einer anderen Frage wurde geklärt, ob es sich bei dem behandelten Thema um "Zählproportionen" oder "kontinuierliche Proportionen" handelte, und in einem Follow-up wurde darauf hingewiesen, dass es sich bei dem Unterschied um kritische Informationen handelte (zum Thema logistische / binomische vs. Beta-Regression). Was ist der Unterschied …

12 terminology proportion

2

Verwendung von lm für einen 2-Proben-Proportional-Test

Ich verwende seit einiger Zeit lineare Modelle, um 2-Stichproben-Proportionen-Tests durchzuführen, habe jedoch festgestellt, dass dies möglicherweise nicht vollständig korrekt ist. Es scheint, dass die Verwendung eines verallgemeinerten linearen Modells mit einer Binomialfamilie + Identitätsverknüpfung genau die ungepoolten 2-Stichproben-Proportionen-Testergebnisse liefert. Die Verwendung eines linearen Modells (oder Glm mit Gaußscher Familie) ergibt …

12 r hypothesis-testing generalized-linear-model proportion

1

Wie lassen sich Proportionen am besten transformieren, wenn sie eine unabhängige Variable sind?

Ich dachte, ich hätte dieses Problem verstanden, aber jetzt bin ich mir nicht so sicher und würde es gerne mit anderen klären, bevor ich fortfahre. Ich habe zwei Variablen Xund Y. Yist ein Verhältnis, und es ist nicht durch 0 und 1 begrenzt und ist im Allgemeinen normalverteilt. Xist ein …

12 r regression data-transformation nonlinear-regression proportion

5

Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?

Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

Clopper-Pearson für Nicht-Mathematiker

Ich habe mich gefragt, ob mir jemand die Intuition jenseits des Clopper-Pearson CI für Proportionen erklären kann. Soweit ich weiß, enthält jedes CI eine Varianz. Für Anteile kann jedoch der Clopper-Pearson-CI berechnet werden, auch wenn mein Anteil 0 oder 1 (0% oder 100%) beträgt. Ich habe versucht, die Formeln zu …

12 confidence-interval proportion

2

Der

Ich habe gerade in einem angesehenen (populären) Wissenschaftsmagazin (PM, 02/2013, S.36) über ein interessantes Experiment gelesen (leider ohne Quelle). Es erregte meine Aufmerksamkeit, weil ich intuitiv die Bedeutung des Ergebnisses bezweifelte, aber die bereitgestellten Informationen für die Reproduktion der statistischen Tests ausreichten. Die Forscher fragten sich, ob Erkältung bei kaltem …

12 hypothesis-testing chi-squared experiment-design proportion biostatistics

1

Interpretieren von Proportionen, die als unabhängige Variablen in der linearen Regression eins ergeben

Ich bin mit dem Konzept der kategorialen Variablen und der jeweiligen Dummy-Variablencodierung vertraut, die es uns ermöglicht, eine Ebene als Basislinie anzupassen, um Kollinearität zu vermeiden. Ich bin auch mit der Interpretation von Parameterschätzungen aus solchen Modellen vertraut: Die vorhergesagte Änderung des Ergebnisses für eine bestimmte angepasste Ebene des kategorialen …

12 regression interpretation proportion multicollinearity

Als «proportion» getaggte Fragen