Statistiken und Big Data hypothesis-testing

1

Verringert sich die Bevölkerung der blauäugigen Marsmenschen?

Nehmen wir an, wir wollen die Hypothese testen, dass der Anteil der blauäugigen Marsmenschen im Laufe des 20. Jahrhunderts abgenommen hat. Leider schwankt die Marsbevölkerung stark, so dass jedes Jahrzehnt ein großer Unterschied in der Gesamtbevölkerung besteht [Update: Betrachten Sie die Marsbevölkerung als konstant bei einer Milliarde Marsmenschen. Die folgenden …

8 hypothesis-testing

1

R - power.prop.test, prop.test und ungleiche Stichprobengrößen in A / B-Tests

Angenommen, ich möchte wissen, welche Stichprobengröße ich für ein Experiment benötige, bei dem ich feststellen möchte, ob der Unterschied zwischen zwei Erfolgsanteilen statistisch signifikant ist oder nicht. Hier ist mein aktueller Prozess: Sehen Sie sich historische Daten an, um Basisvorhersagen zu erstellen. Angenommen, in der Vergangenheit führt das Ergreifen einer …

8 r hypothesis-testing statistical-significance proportion

2

Ist der p-Wert auch die Rate falscher Entdeckungen?

In http://surveyanalysis.org/wiki/Multiple_Comparisons_(Post_Hoc_Testing) heißt es Wenn wir beispielsweise einen p-Wert von 0,05 haben und daraus schließen, dass er signifikant ist, beträgt die Wahrscheinlichkeit einer falschen Entdeckung per Definition 0,05. Meine Frage: Ich habe immer gedacht, dass eine falsche Entdeckung ein Fehler vom Typ I ist, der in den meisten Tests den …

8 hypothesis-testing statistical-significance p-value false-discovery-rate type-i-and-ii-errors

2

Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?

Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

2

Testen einer 2x2-Kontingenztabelle: männlich / weiblich, erwerbstätig / arbeitslos

Ich studiere Naturwissenschaften und meine statistischen Kenntnisse sind eher oberflächlich. Problem Ich musste einen Datensatz finden und nach besten Kräften als Aufgabe für meinen Statistikkurs analysieren. Dies ist keine Aufgabe mehr, ich brauche nur Hilfe bei der Interpretation, warum ich meine Analyse schlecht gemacht habe und was ich stattdessen hätte …

8 hypothesis-testing chi-squared fishers-exact

1

Erforderliche Anzahl von Permutationen für einen permutationsbasierten p-Wert

Wie viele Permutationen benötige ich, wenn ich einen permutationsbasierten ppp Wert mit dem Signifikanzniveau berechnen αα\alphamuss? Aus dem Artikel "Permutationstests zur Untersuchung der Klassifikatorleistung" , Seite 5: In der Praxis ist die Obergrenze 1 / ( 2 k- -- -√)1/.(2k)1/(2\sqrt{k})wird typischerweise verwendet, um die Anzahl von Proben zu bestimmen, die …

8 hypothesis-testing p-value permutation-test resampling

2

Ist die Bonferroni-Korrektur für einige abhängige Hypothesen zu antikonservativ / liberal?

Ich habe häufig gelesen, dass die Bonferroni-Korrektur auch für abhängige Hypothesen funktioniert. Ich glaube jedoch nicht, dass dies wahr ist, und ich habe ein Gegenbeispiel. Kann mir bitte jemand sagen (a) wo mein Fehler ist oder (b) ob ich diesbezüglich richtig bin. Einrichten des Zählerbeispiels Angenommen, wir testen zwei Hypothesen. …

8 hypothesis-testing mathematical-statistics multiple-comparisons p-value bonferroni

2

Wenn n zunimmt, steigt der t-Wert in einem Hypothesentest an, aber die t-Tabelle ist genau das Gegenteil. Warum?

Die Formel für in einem Hypothesentest lautet: t = ˉ X - μtttt = X.¯- μσ^/ n- -- -√.t=X¯−μσ^/n. t=\frac{\bar{X}-\mu}{\hat \sigma/\sqrt{n}}. Wenn zunimmt, steigt der Wert gemäß der obigen Formel an. Aber warum nimmt der kritische Wert in der Tabelle ab, wenn (was eine Funktion von ) zunimmt?t t t …

8 hypothesis-testing self-study statistical-significance t-test t-distribution

2

Kombinieren von p-Werten aus verschiedenen statistischen Tests, die auf dieselben Daten angewendet wurden

Obwohl der Titel der Frage trivial erscheint, möchte ich erklären, dass er nicht so trivial ist, dass er sich von der Frage unterscheidet, denselben statistischen Test in ähnlichen Datensätzen anzuwenden, um ihn gegen eine Nullhypothese zu testen (Metaanalyse, zB unter Verwendung der Fisher-Methode zum Kombinieren von p-Werten). Was ich suche, …

8 hypothesis-testing probability statistical-significance multiple-comparisons p-value

3

Wie bestimmen Statistiker, welche Verteilung für verschiedene statistische Tests geeignet ist?

Beispielsweise wird die für den ANOVA-Test berechnete Teststatistik mit einer F-Verteilung verglichen, während ein t-Test-Vergleichsmittel die Teststatistik mit einer t-Verteilung vergleicht.

8 hypothesis-testing distributions

1

Mahalanobis-Abstand bei nicht normalen Daten

Der Mahalanobis-Abstand nimmt bei Verwendung zu Klassifizierungszwecken typischerweise eine multivariate Normalverteilung an, und die Abstände vom Schwerpunkt sollten dann einer Verteilung folgen (wobei Freiheitsgrade gleich der Anzahl der Dimensionen / Merkmale sind). Wir können die Wahrscheinlichkeit, dass ein neuer Datenpunkt zur Menge gehört, anhand seiner Mahalanobis-Entfernung berechnen.χ2χ2\chi^2ddd Ich habe Datensätze, …

8 hypothesis-testing classification multivariate-analysis poisson-distribution joint-distribution

3

Warum ist Abhängigkeit ein Problem?

Mich interessiert, warum abhängige Beobachtungen ein Problem in der Statistik sind. Angenommen, Sie möchten wissen, ob sich die durchschnittlichen Prüfungsergebnisse zwischen zwei Schulen unterscheiden. Sie sammeln 50 Beobachtungen in jeder Schule. Diese 50 Beobachtungen stammen aus 5 verschiedenen Klassenräumen in jeder Schule und es besteht eine Abhängigkeit innerhalb der Klassenräume. …

8 hypothesis-testing t-test independence non-independent

3

Zusammenhang zwischen Omnibus-Test und Mehrfachvergleich?

Wikipedia sagt Methoden, die auf einem Omnibus-Test beruhen, bevor mehrere Vergleiche durchgeführt werden . Typischerweise erfordern diese Methoden einen signifikanten ANOVA / Tukey-Bereichstest, bevor mehrere Vergleiche durchgeführt werden. Diese Methoden haben eine "schwache" Kontrolle des Fehlers vom Typ I. Ebenfalls Der F-Test in ANOVA ist ein Beispiel für einen Omnibus-Test, …

8 hypothesis-testing multiple-comparisons

2

Welchen Test verwenden Sie, um die Proportionen zwischen 3 Gruppen zu vergleichen?

Wir testen eine E-Mail-Marketingkampagne. Bei unserem ersten Test haben wir zwei verschiedene E-Mail-Typen verschickt und hatten eine dritte Kontrollgruppe, die keine E-Mail erhalten hat. Jetzt erhalten wir "Ergebnisse" als Anteil der Benutzer zurück, die zu unserer App zurückgekehrt sind. Hier sind die Ergebnisse: Group | received e-mail | returned | …

8 hypothesis-testing binomial multiple-comparisons

3

Wie interpretieren Sie Ergebnisse von Unit-Root-Tests?

Ich muss einige Unit-Root-Tests für ein Projekt durchführen. Ich bin mir nur nicht sicher, wie ich die Daten interpretieren soll (worum ich gebeten wurde). Hier ist eines meiner Ergebnisse: dfuller Demand Dickey-Fuller test for unit root Number of obs = 50 ---------- Interpolated Dickey-Fuller --------- Test 1% Critical 5% Critical …

8 time-series hypothesis-testing stata interpretation unit-root

Als «hypothesis-testing» getaggte Fragen