Statistiken und Big Data

4

Klassenungleichgewicht beim überwachten maschinellen Lernen

Dies ist im Allgemeinen eine Frage, die sich nicht auf eine Methode oder einen Datensatz bezieht. Wie gehen wir mit einem Klassenungleichgewichtsproblem beim überwachten maschinellen Lernen um, bei dem die Zahl 0 etwa 90% und die Zahl 1 etwa 10% in Ihrem Datensatz beträgt. Wie trainieren wir den Klassifikator optimal. …

47 machine-learning unbalanced-classes supervised-learning

3

AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC - Kann ich sie austauschbar verwenden?

Auf P. 34 seiner PRNN Brian Ripley kommentiert: "Der AIC wurde von Akaike (1974) als 'An Information Criterion' bezeichnet, obwohl allgemein angenommen wird, dass der A für Akaike steht." Tatsächlich erklärt Akaike (1974, S. 719) dies bei der Einführung der AIC-Statistik "IC stands for information criterion and A is added …

47 forecasting model-selection aic bic

5

Interpretation von QQplot - Gibt es eine Faustregel, um sich für eine Nicht-Normalität zu entscheiden?

Ich habe hier genügend Threads zu QQplots gelesen, um zu verstehen, dass ein QQplot aussagekräftiger sein kann als andere Normalitätstests. Ich bin jedoch unerfahren mit der Interpretation von QQplots. Ich habe viel gegoogelt; Ich habe viele Diagramme nicht normaler QQ-Diagramme gefunden, aber keine klaren Regeln für deren Interpretation, außer dem …

47 interpretation normality-assumption qq-plot

2

Optimale Anzahl von Falten bei der fachen Kreuzvalidierung: Ist ein aussagekräftiger Lebenslauf immer die beste Wahl?

Gibt es abgesehen von Überlegungen zur Rechenleistung Gründe zu der Annahme, dass eine Erhöhung der Anzahl der Falten bei der Kreuzvalidierung zu einer besseren Modellauswahl / -validierung führt (dh je höher die Anzahl der Falten, desto besser)? Wird das Argument auf die Spitze getrieben, führt eine ausschließliche Kreuzvalidierung zwangsläufig zu …

47 cross-validation bias-variance-tradeoff

5

R - QQPlot: Wie wird festgestellt, ob Daten normal verteilt sind?

Ich habe dies aufgezeichnet, nachdem ich einen Shapiro-Wilk-Normalitätstest durchgeführt habe. Der Test hat gezeigt, dass es wahrscheinlich ist, dass die Bevölkerung normal verteilt ist. Wie kann man dieses "Verhalten" auf dieser Handlung sehen? AKTUALISIEREN Ein einfaches Histogramm der Daten: AKTUALISIEREN Der Shapiro-Wilk-Test sagt:

47 r data-visualization normal-distribution histogram qq-plot

4

Warum entspricht die Erwartung dem arithmetischen Mittel?

Heute bin ich auf ein neues Thema gestoßen, das sich Mathematische Erwartung nennt. Das Buch, dem ich folge, besagt, dass Erwartung das arithmetische Mittel einer Zufallsvariablen ist, die aus einer Wahrscheinlichkeitsverteilung stammt. Aber es definiert Erwartung als die Summe des Produkts einiger Daten und deren Wahrscheinlichkeit. Wie können diese beiden …

47 expected-value

2

Passen Splines die Daten übermäßig an?

Mein Problem : Ich habe kürzlich einen Statistiker getroffen, der mir mitteilte, dass Splines nur zum Durchsuchen von Daten nützlich sind und einer Überanpassung unterliegen und daher für die Vorhersage nicht hilfreich sind. Er zog es vor, mit einfachen Polynomen zu erforschen ... Da ich ein großer Fan von Splines …

47 regression splines

3

Wie finde ich Peaks in einem Datensatz?

Wenn ich einen Datensatz habe, der eine Grafik wie die folgende erzeugt, wie würde ich algorithmisch die x-Werte der angezeigten Peaks bestimmen (in diesem Fall drei davon):

47 data-visualization mode

6

Tutorial zur Bayes'schen Statistik

Ich versuche, in der Bayesianischen Statistik auf den neuesten Stand zu kommen. Ich habe ein bisschen Statistikhintergrund (STAT 101), aber nicht zu viel - ich glaube, ich kann Prior, Posterior und Likelihood verstehen: D. Ich möchte noch kein Bayesianisches Lehrbuch lesen. Ich würde es vorziehen, aus einer Quelle zu lesen …

47 bayesian references

4

Wie wird die Auswahl der logistischen Regressionsuntermenge durchgeführt?

Ich passe eine Binomialfamilie glm in R an, und ich habe eine ganze Truppe von erklärenden Variablen, und ich muss das Beste finden (R-Quadrat als Maß ist in Ordnung). Kurz bevor ich ein Skript schreibe, um zufällig verschiedene Kombinationen der erklärenden Variablen durchzugehen und dann aufzuzeichnen, was am besten funktioniert, …

47 r logistic

5

Der erste Quellcode für R-Pakete, der in Vorbereitung auf das Schreiben eines eigenen Pakets studiert werden soll

Ich plane, R-Pakete zu schreiben. Ich dachte, es wäre gut, den Quellcode bestehender Pakete zu studieren, um die Konventionen der Paketkonstruktion zu lernen. Meine Kriterien für gute Studienangebote: Einfache statistische / technische Ideen : Es geht darum, etwas über die Mechanik des Verpackungsbaus zu lernen. Für das Verständnis des Pakets …

47 r

15

Am verwirrendsten statistische Begriffe

Wir Statistiker verwenden viele Wörter auf eine Art und Weise, die sich geringfügig von der Art und Weise unterscheidet, wie alle anderen sie verwenden. Dies verursacht viele Probleme, wenn wir lehren oder erklären, was wir tun. Ich beginne eine Liste (und füge jetzt per Kommentar einige Definitionen hinzu): Macht ist …

47 terminology communication

3

Ist es möglich, Zeitreihencluster basierend auf der Kurvenform zu erstellen?

Ich habe Verkaufsdaten für eine Reihe von Filialen und möchte sie anhand der Form ihrer Kurven im Zeitverlauf kategorisieren. Die Daten sehen ungefähr so aus (sind aber offensichtlich nicht zufällig und enthalten einige fehlende Daten): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval …

47 r time-series clustering

7

Warum sollte man bei der Durchführung eines t-Tests lieber von gleichen Varianzen ausgehen (oder diese testen), als immer eine Welch-Näherung des df zu verwenden?

Wenn die Annahme der Homogenität der Varianz erfüllt ist, scheinen die Ergebnisse eines nach Welch eingestellten t-Tests und eines Standard-t-Tests ungefähr gleich zu sein. Warum nicht einfach immer das von Welch eingestellte t verwenden?

47 variance t-test heteroscedasticity

14

Klarstellung zur Interpretation von Konfidenzintervallen?

Mein gegenwärtiges Verständnis des Begriffs "Konfidenzintervall mit Konfidenzniveau 1−α1−α1 - \alpha " ist, dass, wenn wir das Konfidenzintervall mehrmals (jedes Mal mit einer neuen Stichprobe) berechnen würden, es den korrekten Parameter 1−α1−α1 - \alpha der Zeit enthalten würde. Obwohl mir klar ist, dass dies nicht mit der Wahrscheinlichkeit übereinstimmt, dass …

47 confidence-interval