Als «hypothesis-testing» getaggte Fragen

Beim Testen von Hypothesen wird bewertet, ob Daten nicht mit einer bestimmten Hypothese übereinstimmen, anstatt auf zufällige Schwankungen zurückzuführen zu sein.

3
Warum setzen mehrere (wenn nicht alle) parametrische Hypothesentests eine Zufallsstichprobe voraus?
Tests wie Z, t und einige andere gehen davon aus, dass die Daten auf einer Zufallsstichprobe basieren. Warum? Angenommen, ich mache experimentelle Forschungen, bei denen mir die interne Gültigkeit viel mehr am Herzen liegt als die externe. Also, wenn meine Stichprobe ein bisschen voreingenommen sein könnte, okay, da ich zugestimmt …

2
Wie können die gewählten falsch-positiven / falsch-negativen Fehlerquoten und die zugrunde liegende Kostenquote konsequent gerechtfertigt werden?
Kontext Eine Gruppe von Sozialwissenschaftlern und Statistikern ( Benjamin et al., 2017 ) hat kürzlich vorgeschlagen, dass die typische falsch-positive Rate ( = 0,05), die als Schwelle für die Bestimmung der "statistischen Signifikanz" verwendet wird, an eine konservativere Schwelle angepasst werden muss ( = .005). Eine konkurrierende Gruppe von Sozialwissenschaftlern …

2
Sind Kaggle-Wettbewerbe nur zufällig gewonnen?
Kaggle-Wettbewerbe bestimmen die endgültigen Platzierungen auf der Grundlage eines durchgehaltenen Testsatzes. Ein durchgehaltener Testsatz ist eine Stichprobe; Es kann sein, dass es nicht repräsentativ für die zu modellierende Population ist. Da jede Einsendung wie eine Hypothese ist, hat der Algorithmus, der den Wettbewerb gewonnen hat, möglicherweise den Testsatz besser als …


1
GBM-Paket vs. Caret mit GBM
Ich habe das Modell mit optimiert caret, aber dann das Modell mit dem gbmPaket erneut ausgeführt. Nach meinem Verständnis sollten das verwendete caretPaket gbmund die Ausgabe identisch sein. Nur ein kurzer Testlauf mit data(iris)zeigt jedoch eine Diskrepanz im Modell von etwa 5% unter Verwendung von RMSE und R ^ 2 …

2
Verwendung von lm für einen 2-Proben-Proportional-Test
Ich verwende seit einiger Zeit lineare Modelle, um 2-Stichproben-Proportionen-Tests durchzuführen, habe jedoch festgestellt, dass dies möglicherweise nicht vollständig korrekt ist. Es scheint, dass die Verwendung eines verallgemeinerten linearen Modells mit einer Binomialfamilie + Identitätsverknüpfung genau die ungepoolten 2-Stichproben-Proportionen-Testergebnisse liefert. Die Verwendung eines linearen Modells (oder Glm mit Gaußscher Familie) ergibt …

1
Anpassungstest in der logistischen Regression; Welche "Passform" möchten wir testen?
Ich beziehe mich auf die Frage und ihre Antworten: Wie kann die (Wahrscheinlichkeits-) Vorhersagefähigkeit von Modellen verglichen werden, die aus logistischen Regressionen entwickelt wurden? von @Clark Chong und Antworten / Kommentare von @Frank Harrell. und auf die Frage Freiheitsgrade von χ2χ2\chi^2 im Hosmer-Lemeshow-Test und die Kommentare. Ich habe den Aufsatz …

1
Was ist der Unterschied zwischen 'Hypothesentest' und 'Modellauswahl'?
In der Literatur werden beide Begriffe oft synonym verwendet oder miteinander verwoben. Ich versuche jetzt, eine klare Unterscheidung zwischen beiden Begriffen zu finden. Aus meiner Sicht wird eine Hypothese normalerweise über ein Modell ausgedrückt. Selbst wenn wir eine Null-gegen-Alternativ-Hypothese testen, machen wir aus meiner Sicht eine Modellauswahl. Kann mir jemand …

5
Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?
Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
Warum ist diese Verteilung einheitlich?
Wir untersuchen statistische Tests nach Bayes und stoßen auf ein merkwürdiges (zumindest für mich) Phänomen. Betrachten Sie den folgenden Fall: Wir sind daran interessiert zu messen, welche Population A oder B eine höhere Conversion-Rate aufweist. Für eine Plausibilitätsprüfung setzen wir pA=pBpA=pBp_A = p_B , dh die Konversionswahrscheinlichkeit ist in beiden …

1
Wie führt man einen Bootstrap-Test durch, um die Mittelwerte zweier Stichproben zu vergleichen?
Ich habe zwei stark verzerrte Stichproben und versuche, mithilfe von Bootstrapping ihre Mittelwerte mithilfe der t-Statistik zu vergleichen. Wie ist die richtige Vorgehensweise dafür? Der Prozess, den ich benutze Ich bin besorgt über die Angemessenheit der Verwendung des Standardfehlers der ursprünglichen / beobachteten Daten im letzten Schritt, wenn ich weiß, …

1
Wenn die Verteilung der Teststatistik bimodal ist, hat der p-Wert dann eine Bedeutung?
Der P-Wert ist definiert als die Wahrscheinlichkeit, eine Teststatistik zu erhalten, die mindestens so extrem ist wie das, was beobachtet wird, vorausgesetzt, die Nullhypothese ist wahr. Mit anderen Worten, Aber was ist, wenn die Teststatistik in der Verteilung bimodal ist? Bedeutet p-Wert in diesem Zusammenhang etwas? Zum Beispiel werde ich …

1
Warum ist der F-Test in linearen Gauß-Modellen am leistungsfähigsten?
Für ein lineares Gauß-Modell Y=μ+σGY=μ+σGY=\mu+\sigma G bei dem angenommen wird, dass μμ\mu in einem Vektorraum WWW und GGG die Standardnormalverteilung auf RnRn\mathbb{R}^n , ist die Statistik des FFF Tests für H0:{μ∈U}H0:{μ∈U}H_0\colon\{\mu \in U\} wobei U⊂WU⊂WU \subset W ist ein Vektorraum, eine zunehmende Eins-zu-Eins-Funktion der Abweichungsstatistik : Woher wissen wir, dass …

2
Warum verwendet der Unabhängigkeitstest die Chi-Quadrat-Verteilung?
Der -Anpassungstest verwendet die folgende Statistik : Im Test wird dies gewährt Wenn die Bedingungen erfüllt sind, verwendet man die - -Verteilung , um den p-Wert zu berechnen, der bei der dass wahr ist, in einer repräsentativen Stichprobe der gleichen Größe beobachtet werden würde.χ2χ2\chi^2χ20=∑i=1n(Oi−Ei)2Eiχ02=∑i=1n(Oi−Ei)2Ei \chi_0^2=\sum_{i=1}^n\frac{(O_i-E_i)^2}{E_i} χ2χ2\chi^2H0H0H_0 Damit jedoch eine Statistik …

2
Der
Ich habe gerade in einem angesehenen (populären) Wissenschaftsmagazin (PM, 02/2013, S.36) über ein interessantes Experiment gelesen (leider ohne Quelle). Es erregte meine Aufmerksamkeit, weil ich intuitiv die Bedeutung des Ergebnisses bezweifelte, aber die bereitgestellten Informationen für die Reproduktion der statistischen Tests ausreichten. Die Forscher fragten sich, ob Erkältung bei kaltem …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.