Statistiken und Big Data hypothesis-testing

3

Warum setzen mehrere (wenn nicht alle) parametrische Hypothesentests eine Zufallsstichprobe voraus?

Tests wie Z, t und einige andere gehen davon aus, dass die Daten auf einer Zufallsstichprobe basieren. Warum? Angenommen, ich mache experimentelle Forschungen, bei denen mir die interne Gültigkeit viel mehr am Herzen liegt als die externe. Also, wenn meine Stichprobe ein bisschen voreingenommen sein könnte, okay, da ich zugestimmt …

12 hypothesis-testing sampling parametric randomness

2

Wie können die gewählten falsch-positiven / falsch-negativen Fehlerquoten und die zugrunde liegende Kostenquote konsequent gerechtfertigt werden?

Kontext Eine Gruppe von Sozialwissenschaftlern und Statistikern ( Benjamin et al., 2017 ) hat kürzlich vorgeschlagen, dass die typische falsch-positive Rate ( = 0,05), die als Schwelle für die Bestimmung der "statistischen Signifikanz" verwendet wird, an eine konservativere Schwelle angepasst werden muss ( = .005). Eine konkurrierende Gruppe von Sozialwissenschaftlern …

12 hypothesis-testing p-value power type-i-and-ii-errors

2

Sind Kaggle-Wettbewerbe nur zufällig gewonnen?

Kaggle-Wettbewerbe bestimmen die endgültigen Platzierungen auf der Grundlage eines durchgehaltenen Testsatzes. Ein durchgehaltener Testsatz ist eine Stichprobe; Es kann sein, dass es nicht repräsentativ für die zu modellierende Population ist. Da jede Einsendung wie eine Hypothese ist, hat der Algorithmus, der den Wettbewerb gewonnen hat, möglicherweise den Testsatz besser als …

12 machine-learning probability hypothesis-testing sample kaggle

1

Verwenden Sie für den Hypothesentest, dass weil die Konvergenzrate schneller ist?

Angenommen, ich habe sind iid und ich möchte einen Hypothesentest durchführen, bei dem 0 ist. Angenommen, ich habe ein großes n und kann den zentralen Grenzwertsatz verwenden. Ich könnte auch einen Test machen, bei dem 0 ist, was gleichbedeutend ist mit dem Test, dass 0 ist. Außerdem konvergiert gegen ein …

12 hypothesis-testing convergence delta-method

1

GBM-Paket vs. Caret mit GBM

Ich habe das Modell mit optimiert caret, aber dann das Modell mit dem gbmPaket erneut ausgeführt. Nach meinem Verständnis sollten das verwendete caretPaket gbmund die Ausgabe identisch sein. Nur ein kurzer Testlauf mit data(iris)zeigt jedoch eine Diskrepanz im Modell von etwa 5% unter Verwendung von RMSE und R ^ 2 …

12 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

2

Verwendung von lm für einen 2-Proben-Proportional-Test

Ich verwende seit einiger Zeit lineare Modelle, um 2-Stichproben-Proportionen-Tests durchzuführen, habe jedoch festgestellt, dass dies möglicherweise nicht vollständig korrekt ist. Es scheint, dass die Verwendung eines verallgemeinerten linearen Modells mit einer Binomialfamilie + Identitätsverknüpfung genau die ungepoolten 2-Stichproben-Proportionen-Testergebnisse liefert. Die Verwendung eines linearen Modells (oder Glm mit Gaußscher Familie) ergibt …

12 r hypothesis-testing generalized-linear-model proportion

1

Anpassungstest in der logistischen Regression; Welche "Passform" möchten wir testen?

Ich beziehe mich auf die Frage und ihre Antworten: Wie kann die (Wahrscheinlichkeits-) Vorhersagefähigkeit von Modellen verglichen werden, die aus logistischen Regressionen entwickelt wurden? von @Clark Chong und Antworten / Kommentare von @Frank Harrell. und auf die Frage Freiheitsgrade von χ2χ2\chi^2 im Hosmer-Lemeshow-Test und die Kommentare. Ich habe den Aufsatz …

12 hypothesis-testing logistic predictive-models regression-strategies hosmer-lemeshow-test

1

Was ist der Unterschied zwischen 'Hypothesentest' und 'Modellauswahl'?

In der Literatur werden beide Begriffe oft synonym verwendet oder miteinander verwoben. Ich versuche jetzt, eine klare Unterscheidung zwischen beiden Begriffen zu finden. Aus meiner Sicht wird eine Hypothese normalerweise über ein Modell ausgedrückt. Selbst wenn wir eine Null-gegen-Alternativ-Hypothese testen, machen wir aus meiner Sicht eine Modellauswahl. Kann mir jemand …

12 hypothesis-testing model-selection regression-strategies

5

Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?

Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

2

Warum ist diese Verteilung einheitlich?

Wir untersuchen statistische Tests nach Bayes und stoßen auf ein merkwürdiges (zumindest für mich) Phänomen. Betrachten Sie den folgenden Fall: Wir sind daran interessiert zu messen, welche Population A oder B eine höhere Conversion-Rate aufweist. Für eine Plausibilitätsprüfung setzen wir pA=pBpA=pBp_A = p_B , dh die Konversionswahrscheinlichkeit ist in beiden …

12 hypothesis-testing bayesian binomial python beta-distribution

1

Wie führt man einen Bootstrap-Test durch, um die Mittelwerte zweier Stichproben zu vergleichen?

Ich habe zwei stark verzerrte Stichproben und versuche, mithilfe von Bootstrapping ihre Mittelwerte mithilfe der t-Statistik zu vergleichen. Wie ist die richtige Vorgehensweise dafür? Der Prozess, den ich benutze Ich bin besorgt über die Angemessenheit der Verwendung des Standardfehlers der ursprünglichen / beobachteten Daten im letzten Schritt, wenn ich weiß, …

12 hypothesis-testing t-test bootstrap

1

Wenn die Verteilung der Teststatistik bimodal ist, hat der p-Wert dann eine Bedeutung?

Der P-Wert ist definiert als die Wahrscheinlichkeit, eine Teststatistik zu erhalten, die mindestens so extrem ist wie das, was beobachtet wird, vorausgesetzt, die Nullhypothese ist wahr. Mit anderen Worten, Aber was ist, wenn die Teststatistik in der Verteilung bimodal ist? Bedeutet p-Wert in diesem Zusammenhang etwas? Zum Beispiel werde ich …

12 hypothesis-testing statistical-significance p-value descriptive-statistics bimodal

1

Warum ist der F-Test in linearen Gauß-Modellen am leistungsfähigsten?

Für ein lineares Gauß-Modell Y=μ+σGY=μ+σGY=\mu+\sigma G bei dem angenommen wird, dass μμ\mu in einem Vektorraum WWW und GGG die Standardnormalverteilung auf RnRn\mathbb{R}^n , ist die Statistik des FFF Tests für H0:{μ∈U}H0:{μ∈U}H_0\colon\{\mu \in U\} wobei U⊂WU⊂WU \subset W ist ein Vektorraum, eine zunehmende Eins-zu-Eins-Funktion der Abweichungsstatistik : Woher wissen wir, dass …

12 hypothesis-testing normal-distribution linear-model power likelihood-ratio

2

Warum verwendet der Unabhängigkeitstest die Chi-Quadrat-Verteilung?

Der -Anpassungstest verwendet die folgende Statistik : Im Test wird dies gewährt Wenn die Bedingungen erfüllt sind, verwendet man die - -Verteilung , um den p-Wert zu berechnen, der bei der dass wahr ist, in einer repräsentativen Stichprobe der gleichen Größe beobachtet werden würde.χ2χ2\chi^2χ20=∑i=1n(Oi−Ei)2Eiχ02=∑i=1n(Oi−Ei)2Ei \chi_0^2=\sum_{i=1}^n\frac{(O_i-E_i)^2}{E_i} χ2χ2\chi^2H0H0H_0 Damit jedoch eine Statistik …

12 hypothesis-testing chi-squared

2

Der

Ich habe gerade in einem angesehenen (populären) Wissenschaftsmagazin (PM, 02/2013, S.36) über ein interessantes Experiment gelesen (leider ohne Quelle). Es erregte meine Aufmerksamkeit, weil ich intuitiv die Bedeutung des Ergebnisses bezweifelte, aber die bereitgestellten Informationen für die Reproduktion der statistischen Tests ausreichten. Die Forscher fragten sich, ob Erkältung bei kaltem …

12 hypothesis-testing chi-squared experiment-design proportion biostatistics

Als «hypothesis-testing» getaggte Fragen