Statistiken und Big Data statistical-significance

3

Warum werden Typ-II-Fehler beim Testen von Hypothesen als Fehler angesehen?

Ich lese über Entscheidungsfehler beim Testen von Hypothesen. Meine Frage ist, warum ein "Typ-II-Fehler" überhaupt als Fehler angesehen wird. Soweit ich weiß, entsteht dies, wenn wir eine falsche Nullhypothese nicht ablehnen. Wenn wir die Nullhypothese nicht ablehnen, bedeutet dies einfach, dass wir keine starken Beweise haben, um sie abzulehnen. Wir …

8 hypothesis-testing statistical-significance p-value

4

Ist es realistisch, dass alle Variablen in einem multiplen Regressionsmodell von hoher Bedeutung sind?

Ich möchte den Kraftstoffverbrauch bei Hubraum, Kraftstoffart, 2- oder 4-Rad-Antrieb, Leistung, manuellem oder automatischem Getriebe und der Anzahl der Geschwindigkeiten senken. Mein Datensatz ( Link ) enthält Fahrzeuge von 2012-2014. fuelEconomy in Meilen pro Gallone engineDisplacement: Motorgröße in Litern fuelStd: 1 für Gas 0 für Diesel wheelDriveStd: 1 für Allradantrieb, …

8 r statistical-significance multiple-regression interpretation

1

Wie formuliere ich diese Frage statistisch um?

Ich analysiere einen Datensatz, der Beobachtungen aus n Versuchen von Spielern in einem Spiel enthält. Wenn ich den Aufbau eines Regressionsmodells , das Ergebnis jeder Versuch gegeben 1 oder mehr Deskriptoren zur Vorhersage bezüglich jeder Spieler versuchen , wie messe ich , wie viele Versuche , ein Spieler haben muss …

8 regression statistical-significance bayesian p-value sequence-analysis

3

Ein konkretes Beispiel ist die Durchführung einer SVD, um fehlende Werte zu unterstellen

Ich habe die großartigen Kommentare zum Umgang mit fehlenden Werten vor dem Anwenden von SVD gelesen, möchte aber anhand eines einfachen Beispiels wissen, wie dies funktioniert: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Wenn ich in der …

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

5

Warum werden irrelevante Regressoren in großen Stichproben statistisch signifikant?

Ich versuche, statistische Signifikanz, Effektgrößen und dergleichen besser zu verstehen. Ich habe die Auffassung (vielleicht ist es falsch), dass selbst irrelevante Regressoren in großen Stichproben häufig statistisch signifikant werden . Mit irrelevant meine ich, dass es keine sachliche Erklärung gibt, warum der Regressor mit der abhängigen Variablen in Beziehung gesetzt …

8 regression statistical-significance effect-size large-data

1

Sollte ich den Z-Score überprüfen, wenn der p-Wert von Local Morans I signifikant ist?

Der von mir verwendete Datensatz enthält Einkommensdaten pro Bereich. Die Werte sind nicht normal verteilt, wie in der folgenden Abbildung dargestellt. Global Morans I zeigt signifikante räumliche Muster an und Local Morans I findet signifikante heiße und kalte Stellen (entsprechend dem p-Wert). Wenn ich den Z-Score überprüfe, stellt sich heraus, …

8 statistical-significance autocorrelation spatial

1

R - power.prop.test, prop.test und ungleiche Stichprobengrößen in A / B-Tests

Angenommen, ich möchte wissen, welche Stichprobengröße ich für ein Experiment benötige, bei dem ich feststellen möchte, ob der Unterschied zwischen zwei Erfolgsanteilen statistisch signifikant ist oder nicht. Hier ist mein aktueller Prozess: Sehen Sie sich historische Daten an, um Basisvorhersagen zu erstellen. Angenommen, in der Vergangenheit führt das Ergreifen einer …

8 r hypothesis-testing statistical-significance proportion

2

Ist der p-Wert auch die Rate falscher Entdeckungen?

In http://surveyanalysis.org/wiki/Multiple_Comparisons_(Post_Hoc_Testing) heißt es Wenn wir beispielsweise einen p-Wert von 0,05 haben und daraus schließen, dass er signifikant ist, beträgt die Wahrscheinlichkeit einer falschen Entdeckung per Definition 0,05. Meine Frage: Ich habe immer gedacht, dass eine falsche Entdeckung ein Fehler vom Typ I ist, der in den meisten Tests den …

8 hypothesis-testing statistical-significance p-value false-discovery-rate type-i-and-ii-errors

2

Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?

Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

2

Wenn n zunimmt, steigt der t-Wert in einem Hypothesentest an, aber die t-Tabelle ist genau das Gegenteil. Warum?

Die Formel für in einem Hypothesentest lautet: t = ˉ X - μtttt = X.¯- μσ^/ n- -- -√.t=X¯−μσ^/n. t=\frac{\bar{X}-\mu}{\hat \sigma/\sqrt{n}}. Wenn zunimmt, steigt der Wert gemäß der obigen Formel an. Aber warum nimmt der kritische Wert in der Tabelle ab, wenn (was eine Funktion von ) zunimmt?t t t …

8 hypothesis-testing self-study statistical-significance t-test t-distribution

2

Kombinieren von p-Werten aus verschiedenen statistischen Tests, die auf dieselben Daten angewendet wurden

Obwohl der Titel der Frage trivial erscheint, möchte ich erklären, dass er nicht so trivial ist, dass er sich von der Frage unterscheidet, denselben statistischen Test in ähnlichen Datensätzen anzuwenden, um ihn gegen eine Nullhypothese zu testen (Metaanalyse, zB unter Verwendung der Fisher-Methode zum Kombinieren von p-Werten). Was ich suche, …

8 hypothesis-testing probability statistical-significance multiple-comparisons p-value

3

So testen Sie, ob die Varianz zweier Verteilungen unterschiedlich ist, wenn die Verteilungen nicht normal sind

Ich untersuche zwei geografisch isolierte Populationen derselben Art. Wenn ich die Verteilungen betrachte, sehe ich, dass beide bimodal sind (es gibt eine gewisse Saisonalität für ihr Auftreten), aber die Peaks in einer Population sind viel höher und viel schmaler (dh die Varianz der lokalen Peaks ist kleiner). Welche Art von …

8 distributions statistical-significance variance

2

Wie kann man zwei Algorithmen in drei Datensätzen bei der Auswahl und Klassifizierung von Features statistisch vergleichen?

Problemhintergrund: Im Rahmen meiner Forschung habe ich zwei Algorithmen geschrieben, mit denen eine Reihe von Merkmalen aus einem Datensatz ausgewählt werden können (Genexpressionsdaten von Krebspatienten). Diese Merkmale werden dann getestet, um festzustellen, wie gut sie eine unsichtbare Probe entweder als Krebs oder als Nichtkrebs klassifizieren können. Für jeden Lauf des …

8 machine-learning statistical-significance computational-statistics standardization genetic-algorithms

2

Schätzung des vergleichenden Erfolgs verschiedener Broschüren

Das Problem der realen Welt Einer meiner Kunden bereitet sich darauf vor, einen Direktmailer an seine abonnierte Benutzerliste zu senden, und diese statistische Herausforderung wurde gestellt. Das Marketing-Team verfügt über 3 verschiedene Broschüren und möchte wissen, welche Broschüre die höchste Rücklaufquote erzielt. Sie möchten auch wissen, ob das Senden des …

8 hypothesis-testing anova statistical-significance

3

Post-hoc-Test in einer 2x3-ANOVA mit gemischtem Design unter Verwendung von SPSS?

Ich habe zwei Gruppen von 10 Teilnehmern, die während eines Experiments dreimal bewertet wurden. Um die Unterschiede zwischen den Gruppen und zwischen den drei Bewertungen zu testen, führte ich eine 2 × 3-ANOVA mit gemischtem Design mit group(Kontrolle, experimentell), time(erste, zweite, drei) und group x time. Beides timeund groupErgebnis signifikant, …

8 anova mixed-model spss post-hoc bonferroni time-series unevenly-spaced-time-series classification normal-distribution discriminant-analysis probability normal-distribution estimation sampling classification svm terminology pivot-table random-generation self-study estimation sampling estimation categorical-data maximum-likelihood excel least-squares instrumental-variables 2sls total-least-squares correlation self-study variance unbiased-estimator bayesian mixed-model ancova statistical-significance references p-value fishers-exact probability monte-carlo particle-filter logistic predictive-models modeling interaction survey hypothesis-testing multiple-regression regression variance data-transformation residuals minitab r time-series forecasting arima garch correlation estimation least-squares bias pca predictive-models genetics sem partial-least-squares nonparametric ordinal-data wilcoxon-mann-whitney bonferroni wilcoxon-signed-rank traminer regression econometrics standard-error robust misspecification r probability logistic generalized-linear-model r-squared effect-size gee ordered-logit bayesian classification svm kernel-trick nonlinear bayesian pca dimensionality-reduction eigenvalues probability distributions mathematical-statistics estimation nonparametric kernel-smoothing expected-value filter mse time-series correlation data-visualization clustering estimation predictive-models recommender-system sparse hypothesis-testing data-transformation parametric probability summations correlation pearson-r spearman-rho bayesian replicability dimensionality-reduction discriminant-analysis outliers weka

Als «statistical-significance» getaggte Fragen