Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren


8
Berechnung der optimalen Anzahl von Behältern in einem Histogramm
Ich bin daran interessiert, eine möglichst optimale Methode zu finden, um zu bestimmen, wie viele Fächer ich in einem Histogramm verwenden soll. Meine Daten sollten höchstens 30 bis 350 Objekte umfassen. Insbesondere versuche ich, Schwellenwerte (wie Otsus Methode) anzuwenden, von denen "gute" Objekte, von denen ich weniger haben sollte und …

7
Das Warum-Buch von Judea Pearl: Warum schlägt er Statistiken?
Ich lese The Book of Why von Judea Pearl und es geht mir unter die Haut 1 . Insbesondere scheint es mir, dass er die "klassische" Statistik bedingungslos kritisiert, indem er argumentiert, dass die Statistik niemals in der Lage ist, Kausalzusammenhänge zu untersuchen, dass sie niemals an Kausalzusammenhängen interessiert ist …
79 causality 

9
Wahrscheinlichkeit eines einzelnen zukünftigen Ereignisses im wirklichen Leben: Was bedeutet es, wenn sie sagen, dass "Hillary eine 75% ige Gewinnchance hat"?
Da es sich bei der Wahl um eine einmalige Veranstaltung handelt, kann dieses Experiment nicht wiederholt werden. Was genau bedeutet die Aussage "Hillary hat eine 75% ige Gewinnchance" technisch? Ich suche eine statistisch korrekte Definition, keine intuitive oder konzeptionelle. Ich bin ein Amateur-Statistik-Fan, der versucht, auf diese Frage zu antworten, …


5
Was ist der Unterschied zwischen off-policy und on-policy Lernen?
Die Website für künstliche Intelligenz definiert das Lernen außerhalb der Politik und innerhalb der Politik wie folgt: "Ein außervertraglicher Lernender lernt den Wert der optimalen Richtlinie unabhängig von den Aktionen des Agenten. Q-Learning ist ein außervertraglicher Lernender. Ein außervertraglicher Lernender lernt den Wert der Richtlinie, die vom Agenten ausgeführt wird, …

6
Wie können Sie feststellen, ob die Daten so „geclustert“ sind, dass Clustering-Algorithmen aussagekräftige Ergebnisse liefern?
Woher wissen Sie, ob Ihre (hochdimensionalen) Daten genügend Clustering aufweisen, sodass Ergebnisse von kmeans oder anderen Clustering-Algorithmen tatsächlich von Bedeutung sind? Wie stark sollte die Varianz innerhalb eines Clusters reduziert werden, damit die tatsächlichen Cluster-Ergebnisse aussagekräftig (und nicht unecht) sind? Sollte Clustering sichtbar sein, wenn eine dimensionsreduzierte Form der Daten …


5
So berechnen Sie die Fläche unter der Kurve (AUC) oder die c-Statistik von Hand
Ich bin daran interessiert, die Fläche unter der Kurve (AUC) oder die c-Statistik von Hand für ein binäres logistisches Regressionsmodell zu berechnen. Zum Beispiel habe ich im Validierungsdatensatz den wahren Wert für die abhängige Variable, Aufbewahrung (1 = beibehalten; 0 = nicht beibehalten), sowie einen vorhergesagten Aufbewahrungsstatus für jede Beobachtung, …


6
Clustering auf der Ausgabe von t-SNE
Ich habe eine Anwendung, in der es nützlich wäre, ein verrauschtes Dataset zu gruppieren, bevor Sie nach Untergruppeneffekten in den Clustern suchen. Ich habe mir zuerst PCA angeschaut, aber es werden ca. 30 Komponenten benötigt, um 90% der Variabilität zu erreichen. Wenn Sie also auf nur ein paar PCs gruppieren, …


3
Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse
Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
Wie kann eine hübsche grafische Darstellung der Ergebnisse der k-means Clusteranalyse erstellt werden?
Ich benutze R, um K-bedeutet Clustering zu machen. Ich verwende 14 Variablen, um K-means auszuführen Was ist ein hübscher Weg, um die Ergebnisse von K-means zu zeichnen? Gibt es bereits Implementierungen? Erschweren 14 Variablen das Zeichnen der Ergebnisse? Ich habe etwas namens GGcluster gefunden, das cool aussieht, sich aber noch …

3
Wann ist R im Quadrat negativ?
Ich verstehe, dass nicht negativ sein kann, da es das Quadrat von R ist. Ich habe jedoch in SPSS eine einfache lineare Regression mit einer einzelnen unabhängigen Variablen und einer abhängigen Variablen durchgeführt. Meine SPSS-Ausgabe gibt mir einen negativen Wert für . Wenn ich dies von Hand aus R berechnen …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.