Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren




4
Wie interpretiere ich den Mittelwert der Silhouette?
Ich versuche, Silhouette Plot zu verwenden, um die Anzahl der Cluster in meinem Datensatz zu bestimmen. Angesichts des Datensatzes Train habe ich den folgenden Matlab-Code verwendet Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ Result; num_of_cluster mean(s)]; end plot( …


3
Warum wird t-SNE nicht als Dimensionsreduktionstechnik für Clustering oder Klassifizierung verwendet?
In einer kürzlich durchgeführten Aufgabe wurde uns befohlen, PCA für die MNIST-Ziffern zu verwenden, um die Abmessungen von 64 (8 x 8 Bilder) auf 2 zu reduzieren. Anschließend mussten wir die Ziffern mit einem Gaußschen Mischungsmodell gruppieren. PCA, das nur zwei Hauptkomponenten verwendet, ergibt keine eindeutigen Cluster, weshalb das Modell …

3
Interpretation der mittleren Abnahme der Genauigkeit und der mittleren Abnahme des GINI in Random Forest-Modellen
Ich habe einige Schwierigkeiten zu verstehen, wie die Ausgabe mit variabler Wichtigkeit aus dem Random Forest-Paket interpretiert wird. Die mittlere Abnahme der Genauigkeit wird normalerweise als "die Abnahme der Modellgenauigkeit durch Permutieren der Werte in jedem Merkmal" beschrieben. Handelt es sich um eine Aussage über das gesamte Feature oder um …



5
Finden Sie den erwarteten Wert mit CDF
Ich beginne damit, dass dies direkt aus dem Buch heraus ein Problem mit den Hausaufgaben ist. Ich habe ein paar Stunden damit verbracht, nach den erwarteten Werten zu suchen, und festgestellt, dass ich nichts verstehe. Lassen Sie XXX die CDF . Suchen Sie für die Werte von für die existiert.F(x)=1−x−α,x≥1F(x)=1-x-α,x≥1F(x) …

3
Warum gibt es einen Unterschied zwischen der manuellen Berechnung eines Konfidenzintervalls für eine logistische Regression von 95% und der Verwendung der Funktion confint () in R?
Sehr geehrte Damen und Herren, mir ist etwas Merkwürdiges aufgefallen, das ich Ihnen nicht erklären kann. Zusammenfassend lässt sich sagen, dass der manuelle Ansatz zur Berechnung eines Konfidenzintervalls in einem logistischen Regressionsmodell und die R-Funktion confint()unterschiedliche Ergebnisse liefern. Ich habe die angewandte logistische Regression von Hosmer & Lemeshow (2. Auflage) …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 



3
Gibt es ein Supervised-Learning-Problem, bei dem (tiefe) neuronale Netze offensichtlich keine anderen Methoden übertreffen konnten?
Ich habe gesehen, dass die Leute SVM und Kernel sehr genau unter die Lupe genommen haben und als Einsteiger in das maschinelle Lernen ziemlich interessant aussehen. Aber wenn wir erwarten, dass wir in Bezug auf (tiefes) neuronales Netzwerk fast immer eine überdurchschnittliche Lösung finden, was bedeutet es dann, in dieser …

2
Ist dies die neueste Regressionsmethode?
Ich verfolge schon seit langer Zeit Kaggle-Wettbewerbe und stelle fest, dass viele Gewinnstrategien mindestens einen der "großen Dreier" beinhalten: Absacken, Boosten und Stapeln. Bei Regressionen scheint es nicht sinnvoll zu sein, ein bestmögliches Regressionsmodell zu erstellen, sondern mehrere Regressionsmodelle wie (verallgemeinerte) lineare Regression, Zufallswald-, KNN-, NN- und SVM-Regressionsmodelle zu erstellen …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.