Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

7
Diagramm für die Beziehung zwischen zwei Ordnungsvariablen
Was ist ein geeignetes Diagramm, um die Beziehung zwischen zwei Ordnungsvariablen zu veranschaulichen? Ein paar Möglichkeiten, die mir einfallen: Streudiagramm mit zufälligem Jitter, um zu verhindern, dass sich Punkte gegenseitig verbergen. Anscheinend eine Standardgrafik - Minitab nennt dies ein "Einzelwertdiagramm". Meiner Meinung nach kann dies irreführend sein, da es visuell …

8
Fallstricke in der Zeitreihenanalyse
Ich beginne gerade mit dem Selbstlernen in der Zeitreihenanalyse. Ich habe festgestellt, dass es einige potenzielle Fallstricke gibt, die für die allgemeine Statistik nicht zutreffen. Aufbauend auf Was sind häufige statistische Sünden? , Ich würde gerne fragen: Was sind häufige Fallstricke oder statistische Sünden in der Zeitreihenanalyse? Dies ist als …

2
Intuition dahinter, warum Steins Paradoxon nur in Dimensionen gilt
Steins Beispiel zeigt, dass die maximale Wahrscheinlichkeitsschätzung von normalverteilten Variablen mit den Mitteln und Varianzen (unter einer Quadratverlustfunktion) unzulässig ist, wenn f . Einen guten Beweis finden Sie im ersten Kapitel von Large-Scale Inference: Empirische Bayes-Methoden zur Abschätzung, Prüfung und Vorhersage von Bradley Effron.μ 1 , … , μ n …

5
Wie berechnet man Pseudo-
Christopher Mannings Artikel über die logistische Regression in R zeigt eine logistische Regression in R wie folgt: ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) Einige Ausgaben: > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows + factor(class), family = binomial("logit")) Deviance Residuals: Min 1Q Median 3Q …

6
Prozentsatz der überlappenden Bereiche zweier Normalverteilungen
Ich wunderte mich, zwei Normalverteilungen mit undσ1, μ 1σ1, μ1\sigma_1,\ \mu_1σ2, μ2σ2, μ2\sigma_2, \ \mu_2 Wie kann ich den Prozentsatz überlappender Bereiche zweier Verteilungen berechnen? Ich nehme an, dieses Problem hat einen bestimmten Namen. Kennen Sie einen bestimmten Namen, der dieses Problem beschreibt? Ist Ihnen eine Implementierung davon bekannt (z. …

5
Regressionen verstehen - die Rolle des Modells
Wie kann ein Regressionsmodell von Nutzen sein, wenn Sie die Funktion nicht kennen, für die Sie die Parameter abrufen möchten? Ich habe eine Studie gesehen, aus der hervorgeht, dass Mütter, die ihre Kinder gestillt haben, im späteren Leben mit geringerer Wahrscheinlichkeit an Diabetes leiden. Die Untersuchung wurde aus einer Umfrage …


1
Verständnis „Fast alle lokalen Minima haben einen sehr ähnlichen Funktionswert wie das globale Optimum“
In einem kürzlich veröffentlichten Blog-Beitrag von Rong Ge hieß es: Es wird angenommen, dass für viele Probleme, einschließlich des Lernens tiefer Netze, fast alle lokalen Minima einen sehr ähnlichen Funktionswert aufweisen wie das globale Optimum, und daher ist es gut genug, ein lokales Minimum zu finden. Woher kommt dieser Glaube?

1
KL-Divergenz zwischen zwei multivariaten Gaußschen
Ich habe Probleme, die KL-Divergenzformel unter der Annahme von zwei multivariaten Normalverteilungen abzuleiten. Ich habe den univariaten Fall ziemlich leicht gemacht. Es ist jedoch eine Weile her, dass ich Mathe-Statistiken erstellt habe, und daher habe ich einige Probleme, diese auf den multivariaten Fall auszudehnen. Ich bin mir sicher, ich vermisse …




5
Was sind Alternativen für Gradient Descent?
Gradient Descent hat das Problem, in Local Minima hängen zu bleiben. Wir müssen Exponentialzeiten des Gradientenabfalls ausführen, um globale Minima zu finden. Kann mir jemand Alternativen zum Gradientenabstieg, wie sie beim Lernen neuronaler Netze angewendet werden, zusammen mit ihren Vor- und Nachteilen nennen?

3
Interpretation des log transformierten Prädiktors und / oder der Antwort
Ich frage mich, ob es einen Unterschied in der Interpretation macht, ob nur die abhängigen, sowohl die abhängigen als auch die unabhängigen Variablen oder nur die unabhängigen Variablen log-transformiert werden. Betrachten Sie den Fall von log(DV) = Intercept + B1*IV + Error Ich kann die IV als prozentuale Erhöhung interpretieren, …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

3
Woher kommt der Irrtum, dass Y normalverteilt sein muss?
Scheinbar seriöse Quellen behaupten, dass die abhängige Variable normal verteilt sein muss: Modellannahmen: ist normalverteilt, Fehler sind normalverteilt, und unabhängig, und ist fest und konstante Varianz .YYYei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2)XXXσ2σ2\sigma^2 Penn State, STAT 504 Analyse diskreter Daten Zweitens erfordert die lineare Regressionsanalyse, dass alle Variablen multivariate Normalen sind. StatisticsSolutions, Annahmen der …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.