Dies ist im Allgemeinen eine Frage, die sich nicht auf eine Methode oder einen Datensatz bezieht. Wie gehen wir mit einem Klassenungleichgewichtsproblem beim überwachten maschinellen Lernen um, bei dem die Zahl 0 etwa 90% und die Zahl 1 etwa 10% in Ihrem Datensatz beträgt. Wie trainieren wir den Klassifikator optimal. …
Auf P. 34 seiner PRNN Brian Ripley kommentiert: "Der AIC wurde von Akaike (1974) als 'An Information Criterion' bezeichnet, obwohl allgemein angenommen wird, dass der A für Akaike steht." Tatsächlich erklärt Akaike (1974, S. 719) dies bei der Einführung der AIC-Statistik "IC stands for information criterion and A is added …
Ich habe hier genügend Threads zu QQplots gelesen, um zu verstehen, dass ein QQplot aussagekräftiger sein kann als andere Normalitätstests. Ich bin jedoch unerfahren mit der Interpretation von QQplots. Ich habe viel gegoogelt; Ich habe viele Diagramme nicht normaler QQ-Diagramme gefunden, aber keine klaren Regeln für deren Interpretation, außer dem …
Gibt es abgesehen von Überlegungen zur Rechenleistung Gründe zu der Annahme, dass eine Erhöhung der Anzahl der Falten bei der Kreuzvalidierung zu einer besseren Modellauswahl / -validierung führt (dh je höher die Anzahl der Falten, desto besser)? Wird das Argument auf die Spitze getrieben, führt eine ausschließliche Kreuzvalidierung zwangsläufig zu …
Ich habe dies aufgezeichnet, nachdem ich einen Shapiro-Wilk-Normalitätstest durchgeführt habe. Der Test hat gezeigt, dass es wahrscheinlich ist, dass die Bevölkerung normal verteilt ist. Wie kann man dieses "Verhalten" auf dieser Handlung sehen? AKTUALISIEREN Ein einfaches Histogramm der Daten: AKTUALISIEREN Der Shapiro-Wilk-Test sagt:
Heute bin ich auf ein neues Thema gestoßen, das sich Mathematische Erwartung nennt. Das Buch, dem ich folge, besagt, dass Erwartung das arithmetische Mittel einer Zufallsvariablen ist, die aus einer Wahrscheinlichkeitsverteilung stammt. Aber es definiert Erwartung als die Summe des Produkts einiger Daten und deren Wahrscheinlichkeit. Wie können diese beiden …
Mein Problem : Ich habe kürzlich einen Statistiker getroffen, der mir mitteilte, dass Splines nur zum Durchsuchen von Daten nützlich sind und einer Überanpassung unterliegen und daher für die Vorhersage nicht hilfreich sind. Er zog es vor, mit einfachen Polynomen zu erforschen ... Da ich ein großer Fan von Splines …
Wenn ich einen Datensatz habe, der eine Grafik wie die folgende erzeugt, wie würde ich algorithmisch die x-Werte der angezeigten Peaks bestimmen (in diesem Fall drei davon):
Ich versuche, in der Bayesianischen Statistik auf den neuesten Stand zu kommen. Ich habe ein bisschen Statistikhintergrund (STAT 101), aber nicht zu viel - ich glaube, ich kann Prior, Posterior und Likelihood verstehen: D. Ich möchte noch kein Bayesianisches Lehrbuch lesen. Ich würde es vorziehen, aus einer Quelle zu lesen …
Ich passe eine Binomialfamilie glm in R an, und ich habe eine ganze Truppe von erklärenden Variablen, und ich muss das Beste finden (R-Quadrat als Maß ist in Ordnung). Kurz bevor ich ein Skript schreibe, um zufällig verschiedene Kombinationen der erklärenden Variablen durchzugehen und dann aufzuzeichnen, was am besten funktioniert, …
Ich plane, R-Pakete zu schreiben. Ich dachte, es wäre gut, den Quellcode bestehender Pakete zu studieren, um die Konventionen der Paketkonstruktion zu lernen. Meine Kriterien für gute Studienangebote: Einfache statistische / technische Ideen : Es geht darum, etwas über die Mechanik des Verpackungsbaus zu lernen. Für das Verständnis des Pakets …
Wir Statistiker verwenden viele Wörter auf eine Art und Weise, die sich geringfügig von der Art und Weise unterscheidet, wie alle anderen sie verwenden. Dies verursacht viele Probleme, wenn wir lehren oder erklären, was wir tun. Ich beginne eine Liste (und füge jetzt per Kommentar einige Definitionen hinzu): Macht ist …
Ich habe Verkaufsdaten für eine Reihe von Filialen und möchte sie anhand der Form ihrer Kurven im Zeitverlauf kategorisieren. Die Daten sehen ungefähr so aus (sind aber offensichtlich nicht zufällig und enthalten einige fehlende Daten): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval …
Wenn die Annahme der Homogenität der Varianz erfüllt ist, scheinen die Ergebnisse eines nach Welch eingestellten t-Tests und eines Standard-t-Tests ungefähr gleich zu sein. Warum nicht einfach immer das von Welch eingestellte t verwenden?
Mein gegenwärtiges Verständnis des Begriffs "Konfidenzintervall mit Konfidenzniveau 1−α1−α1 - \alpha " ist, dass, wenn wir das Konfidenzintervall mehrmals (jedes Mal mit einer neuen Stichprobe) berechnen würden, es den korrekten Parameter 1−α1−α1 - \alpha der Zeit enthalten würde. Obwohl mir klar ist, dass dies nicht mit der Wahrscheinlichkeit übereinstimmt, dass …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.