Statistiken und Big Data

7

Diagramm für die Beziehung zwischen zwei Ordnungsvariablen

Was ist ein geeignetes Diagramm, um die Beziehung zwischen zwei Ordnungsvariablen zu veranschaulichen? Ein paar Möglichkeiten, die mir einfallen: Streudiagramm mit zufälligem Jitter, um zu verhindern, dass sich Punkte gegenseitig verbergen. Anscheinend eine Standardgrafik - Minitab nennt dies ein "Einzelwertdiagramm". Meiner Meinung nach kann dies irreführend sein, da es visuell …

46 data-visualization categorical-data ordinal-data scatterplot

8

Fallstricke in der Zeitreihenanalyse

Ich beginne gerade mit dem Selbstlernen in der Zeitreihenanalyse. Ich habe festgestellt, dass es einige potenzielle Fallstricke gibt, die für die allgemeine Statistik nicht zutreffen. Aufbauend auf Was sind häufige statistische Sünden? , Ich würde gerne fragen: Was sind häufige Fallstricke oder statistische Sünden in der Zeitreihenanalyse? Dies ist als …

46 time-series self-study

2

Intuition dahinter, warum Steins Paradoxon nur in Dimensionen gilt

Steins Beispiel zeigt, dass die maximale Wahrscheinlichkeitsschätzung von normalverteilten Variablen mit den Mitteln und Varianzen (unter einer Quadratverlustfunktion) unzulässig ist, wenn f . Einen guten Beweis finden Sie im ersten Kapitel von Large-Scale Inference: Empirische Bayes-Methoden zur Abschätzung, Prüfung und Vorhersage von Bradley Effron.μ 1 , … , μ n …

46 maximum-likelihood unbiased-estimator intuition steins-phenomenon

5

Wie berechnet man Pseudo-

Christopher Mannings Artikel über die logistische Regression in R zeigt eine logistische Regression in R wie folgt: ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) Einige Ausgaben: > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows + factor(class), family = binomial("logit")) Deviance Residuals: Min 1Q Median 3Q …

46 r logistic log-likelihood

6

Prozentsatz der überlappenden Bereiche zweier Normalverteilungen

Ich wunderte mich, zwei Normalverteilungen mit undσ1, μ 1σ1, μ1\sigma_1,\ \mu_1σ2, μ2σ2, μ2\sigma_2, \ \mu_2 Wie kann ich den Prozentsatz überlappender Bereiche zweier Verteilungen berechnen? Ich nehme an, dieses Problem hat einen bestimmten Namen. Kennen Sie einen bestimmten Namen, der dieses Problem beschreibt? Ist Ihnen eine Implementierung davon bekannt (z. …

46 normal-distribution similarities metric bhattacharyya

5

Regressionen verstehen - die Rolle des Modells

Wie kann ein Regressionsmodell von Nutzen sein, wenn Sie die Funktion nicht kennen, für die Sie die Parameter abrufen möchten? Ich habe eine Studie gesehen, aus der hervorgeht, dass Mütter, die ihre Kinder gestillt haben, im späteren Leben mit geringerer Wahrscheinlichkeit an Diabetes leiden. Die Untersuchung wurde aus einer Umfrage …

46 regression modeling epidemiology log-linear

4

Was ist eine Kontrastmatrix?

Was genau ist die Kontrastmatrix (ein Begriff, der sich auf eine Analyse mit kategorialen Prädiktoren bezieht) und wie genau ist die Kontrastmatrix spezifiziert? Das heißt, was sind Spalten, was sind Zeilen, was sind die Einschränkungen für diese Matrix und was bedeuten Zahlen in Spalten jund Zeilen i? Ich habe versucht, …

46 regression categorical-data definition contrasts categorical-encoding

1

Verständnis „Fast alle lokalen Minima haben einen sehr ähnlichen Funktionswert wie das globale Optimum“

In einem kürzlich veröffentlichten Blog-Beitrag von Rong Ge hieß es: Es wird angenommen, dass für viele Probleme, einschließlich des Lernens tiefer Netze, fast alle lokalen Minima einen sehr ähnlichen Funktionswert aufweisen wie das globale Optimum, und daher ist es gut genug, ein lokales Minimum zu finden. Woher kommt dieser Glaube?

46 machine-learning neural-networks optimization deep-learning

1

KL-Divergenz zwischen zwei multivariaten Gaußschen

Ich habe Probleme, die KL-Divergenzformel unter der Annahme von zwei multivariaten Normalverteilungen abzuleiten. Ich habe den univariaten Fall ziemlich leicht gemacht. Es ist jedoch eine Weile her, dass ich Mathe-Statistiken erstellt habe, und daher habe ich einige Probleme, diese auf den multivariaten Fall auszudehnen. Ich bin mir sicher, ich vermisse …

46 normal-distribution kullback-leibler proof

6

Was ist der Unterschied zwischen Schätzung und Vorhersage?

Zum Beispiel habe ich historische Verlustdaten und berechne extreme Quantile (Value-at-Risk oder wahrscheinlicher maximaler Verlust). Die erzielten Ergebnisse dienen dazu, den Verlust abzuschätzen oder vorherzusagen. Wo kann man die Grenze ziehen? Ich bin verwirrt.

46 estimation predictor prediction-interval

7

Überlebensanalyse-Tools in Python [geschlossen]

Ich frage mich, ob es Pakete für Python gibt, die Überlebensanalysen durchführen können. Ich habe das Überlebenspaket in R verwendet, möchte aber meine Arbeit auf Python portieren.

46 survival python

6

Intuitive Erklärung des Bias-Varianz-Kompromisses?

Ich suche nach einer intuitiven Erklärung des Kompromisses zwischen Bias und Varianz, sowohl im Allgemeinen als auch im Speziellen im Kontext der linearen Regression.

46 regression variance bias

5

Was sind Alternativen für Gradient Descent?

Gradient Descent hat das Problem, in Local Minima hängen zu bleiben. Wir müssen Exponentialzeiten des Gradientenabfalls ausführen, um globale Minima zu finden. Kann mir jemand Alternativen zum Gradientenabstieg, wie sie beim Lernen neuronaler Netze angewendet werden, zusammen mit ihren Vor- und Nachteilen nennen?

46 machine-learning svm neural-networks

3

Interpretation des log transformierten Prädiktors und / oder der Antwort

Ich frage mich, ob es einen Unterschied in der Interpretation macht, ob nur die abhängigen, sowohl die abhängigen als auch die unabhängigen Variablen oder nur die unabhängigen Variablen log-transformiert werden. Betrachten Sie den Fall von log(DV) = Intercept + B1*IV + Error Ich kann die IV als prozentuale Erhöhung interpretieren, …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

3

Woher kommt der Irrtum, dass Y normalverteilt sein muss?

Scheinbar seriöse Quellen behaupten, dass die abhängige Variable normal verteilt sein muss: Modellannahmen: ist normalverteilt, Fehler sind normalverteilt, und unabhängig, und ist fest und konstante Varianz .YYYei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2)XXXσ2σ2\sigma^2 Penn State, STAT 504 Analyse diskreter Daten Zweitens erfordert die lineare Regressionsanalyse, dass alle Variablen multivariate Normalen sind. StatisticsSolutions, Annahmen der …

45 regression least-squares linear-model dependent-variable