Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren



5
Interpretation von QQplot - Gibt es eine Faustregel, um sich für eine Nicht-Normalität zu entscheiden?
Ich habe hier genügend Threads zu QQplots gelesen, um zu verstehen, dass ein QQplot aussagekräftiger sein kann als andere Normalitätstests. Ich bin jedoch unerfahren mit der Interpretation von QQplots. Ich habe viel gegoogelt; Ich habe viele Diagramme nicht normaler QQ-Diagramme gefunden, aber keine klaren Regeln für deren Interpretation, außer dem …

2
Optimale Anzahl von Falten bei der fachen Kreuzvalidierung: Ist ein aussagekräftiger Lebenslauf immer die beste Wahl?
Gibt es abgesehen von Überlegungen zur Rechenleistung Gründe zu der Annahme, dass eine Erhöhung der Anzahl der Falten bei der Kreuzvalidierung zu einer besseren Modellauswahl / -validierung führt (dh je höher die Anzahl der Falten, desto besser)? Wird das Argument auf die Spitze getrieben, führt eine ausschließliche Kreuzvalidierung zwangsläufig zu …


4
Warum entspricht die Erwartung dem arithmetischen Mittel?
Heute bin ich auf ein neues Thema gestoßen, das sich Mathematische Erwartung nennt. Das Buch, dem ich folge, besagt, dass Erwartung das arithmetische Mittel einer Zufallsvariablen ist, die aus einer Wahrscheinlichkeitsverteilung stammt. Aber es definiert Erwartung als die Summe des Produkts einiger Daten und deren Wahrscheinlichkeit. Wie können diese beiden …

2
Passen Splines die Daten übermäßig an?
Mein Problem : Ich habe kürzlich einen Statistiker getroffen, der mir mitteilte, dass Splines nur zum Durchsuchen von Daten nützlich sind und einer Überanpassung unterliegen und daher für die Vorhersage nicht hilfreich sind. Er zog es vor, mit einfachen Polynomen zu erforschen ... Da ich ein großer Fan von Splines …


6
Tutorial zur Bayes'schen Statistik
Ich versuche, in der Bayesianischen Statistik auf den neuesten Stand zu kommen. Ich habe ein bisschen Statistikhintergrund (STAT 101), aber nicht zu viel - ich glaube, ich kann Prior, Posterior und Likelihood verstehen: D. Ich möchte noch kein Bayesianisches Lehrbuch lesen. Ich würde es vorziehen, aus einer Quelle zu lesen …

4
Wie wird die Auswahl der logistischen Regressionsuntermenge durchgeführt?
Ich passe eine Binomialfamilie glm in R an, und ich habe eine ganze Truppe von erklärenden Variablen, und ich muss das Beste finden (R-Quadrat als Maß ist in Ordnung). Kurz bevor ich ein Skript schreibe, um zufällig verschiedene Kombinationen der erklärenden Variablen durchzugehen und dann aufzuzeichnen, was am besten funktioniert, …
47 r  logistic 


15
Am verwirrendsten statistische Begriffe
Wir Statistiker verwenden viele Wörter auf eine Art und Weise, die sich geringfügig von der Art und Weise unterscheidet, wie alle anderen sie verwenden. Dies verursacht viele Probleme, wenn wir lehren oder erklären, was wir tun. Ich beginne eine Liste (und füge jetzt per Kommentar einige Definitionen hinzu): Macht ist …



14
Klarstellung zur Interpretation von Konfidenzintervallen?
Mein gegenwärtiges Verständnis des Begriffs "Konfidenzintervall mit Konfidenzniveau 1−α1−α1 - \alpha " ist, dass, wenn wir das Konfidenzintervall mehrmals (jedes Mal mit einer neuen Stichprobe) berechnen würden, es den korrekten Parameter 1−α1−α1 - \alpha der Zeit enthalten würde. Obwohl mir klar ist, dass dies nicht mit der Wahrscheinlichkeit übereinstimmt, dass …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.