Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

3
(Warum) Ist Kohonen-SOM in Ungnade gefallen?
Soweit ich das beurteilen kann, hatten SOMs im Kohonen-Stil um 2005 einen Höhepunkt und sahen in letzter Zeit nicht so viel Gefallen. Ich habe keine Veröffentlichung gefunden, die besagt, dass SOMs durch eine andere Methode subsumiert wurden oder mit etwas anderem gleichwertig sind (jedenfalls in höheren Dimensionen). Aber es scheint, …


8
Ist es in Ordnung, Ausreißer aus Daten zu entfernen?
Ich habe nach einer Möglichkeit gesucht, Ausreißer aus einem Datensatz zu entfernen, und diese Frage gefunden . In einigen Kommentaren und Antworten auf diese Frage wurde jedoch darauf hingewiesen, dass es keine gute Praxis ist, Ausreißer aus den Daten zu entfernen. In meinem Datensatz habe ich mehrere Ausreißer, die sehr …
33 outliers 

1
Was ist der intuitive Grund für das Ausführen von Rotationen in Factor Analysis / PCA und wie wählt man eine geeignete Rotation aus?
Meine Fragen Was ist der intuitive Grund für die Rotation von Faktoren in der Faktorenanalyse (oder von Komponenten in der PCA)? Mein Verständnis ist, dass es offensichtlich schwierig ist, die Komponenten zu unterscheiden, wenn Variablen in den obersten Komponenten (oder Faktoren) fast gleich geladen sind. In diesem Fall könnte man …

2
Finden von Quartilen in R
Ich arbeite gerade an einem Statistiklehrbuch, während ich R lerne, und bin auf ein Stolperstein im folgenden Beispiel gestoßen: Nach dem Betrachten habe ?quantileich versucht, dies in R mit den folgenden neu zu erstellen: > nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, …
33 r  quantiles 

2
Unterschiede zwischen Bhattacharyya Abstand und KL Abweichung
Ich suche eine intuitive Erklärung für die folgenden Fragen: Was ist in der Statistik und der Informationstheorie der Unterschied zwischen der Bhattacharyya-Distanz und der KL-Divergenz als Maß für den Unterschied zwischen zwei diskreten Wahrscheinlichkeitsverteilungen? Haben sie überhaupt keine Beziehungen und messen sie den Abstand zwischen zwei Wahrscheinlichkeitsverteilungen auf völlig unterschiedliche …

2
Freiheitsgrade von
Die Teststatistik für den Hosmer-Lemeshow- Test (HLT) für die Anpassungsgüte (GOF) eines logistischen Regressionsmodells ist wie folgt definiert: Die Stichprobe wird dann in Dezile, , aufgeteilt. Pro Dezil werden die folgenden Größen berechnet:d=10d=10d=10D1,D2,…,DdD1,D2,…,DdD_1, D_2, \dots , D_{d} D dO1d=∑i∈DdyiO1d=∑i∈DdyichO_{1d}=\displaystyle \sum_{i \in D_d} y_i , dh die beobachtete Anzahl positiver Fälle …






3
Restdiagnoseplots für glm-Modelle interpretieren?
Ich suche nach Richtlinien zur Interpretation von Residuendiagrammen von glm-Modellen. Insbesondere Poisson-, Negativ-Binomial- und Binomial-Modelle. Was können wir von diesen Darstellungen erwarten, wenn die Modelle "korrekt" sind? (Wir erwarten beispielsweise, dass die Varianz mit zunehmendem prognostizierten Wert zunimmt, wenn es sich um ein Poisson-Modell handelt.) Ich weiß, dass die Antworten …


1
Wie trainiere und validiere ich ein neuronales Netzwerkmodell in R?
Ich bin neu in der Modellierung mit neuronalen Netzwerken, aber es ist mir gelungen, ein neuronales Netzwerk mit allen verfügbaren Datenpunkten einzurichten, das gut zu den beobachteten Daten passt. Das neuronale Netzwerk wurde in R mit dem nnet-Paket erstellt: require(nnet) ##33.8 is the highest value mynnet.fit <- nnet(DOC/33.80 ~ ., …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.