Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

2
Wie lässt sich die Leistung von Klassifikatoren für maschinelles Lernen statistisch vergleichen?
Basierend auf der geschätzten Klassifizierungsgenauigkeit möchte ich testen, ob ein Klassifizierer statistisch besser als ein anderer Klassifizierer ist. Für jeden Klassifikator wähle ich zufällig eine Trainings- und Teststichprobe aus dem Basissatz aus, trainiere das Modell und teste das Modell. Ich mache das zehnmal für jeden Klassifikator. Ich habe daher zehn …

3
K-fach vs. Monte Carlo Kreuzvalidierung
Ich versuche verschiedene Kreuzvalidierungsmethoden zu erlernen, hauptsächlich mit der Absicht, sie auf überwachte multivariate Analysetechniken anzuwenden. Zwei, auf die ich gestoßen bin, sind K-Fold- und Monte-Carlo-Kreuzvalidierungstechniken. Ich habe gelesen, dass K-Fold eine Variation von Monte Carlo ist, aber ich bin mir nicht sicher, was genau die Definition von Monte Carlo …

2
Auswahl einer Bandbreite für Kernel-Dichteschätzer
Für univariate Kerneldichteschätzer (KDE) verwende ich die Silverman-Regel zur Berechnung von :hhh 0.9min(sd,IQR/1.34)×n−0.20.9min(sd,IQR/1.34)×n−0.2\begin{equation} 0.9 \min(sd, IQR/1.34)\times n^{-0.2} \end{equation} Was sind die Standardregeln für multivariates KDE (unter der Annahme eines normalen Kernels)?

3
R: Zufällige Gesamtstruktur, die NaN / Inf im Fehler "fremder Funktionsaufruf" trotz fehlender NaNs im Datensatz auslöst [geschlossen]
Ich verwende Caret, um eine kreuzvalidierte zufällige Gesamtstruktur über ein Dataset auszuführen. Die Y-Variable ist ein Faktor. In meinem Datensatz befinden sich keine NaNs, Infs oder NAs. Allerdings bekomme ich, wenn ich den zufälligen Wald laufen lasse Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) …


4
Warum bevorzugt Andrew Ng SVD und nicht EIG der Kovarianzmatrix, um PCA zu machen?
Ich studiere PCA von Andrew Ngs Coursera-Kurs und anderen Materialien. In der ersten Aufgabe des Stanford NLP-Kurses cs224n und im Vorlesungsvideo von Andrew Ng wird anstelle der Eigenvektorzerlegung der Kovarianzmatrix eine Singulärwertzerlegung durchgeführt, und Ng sagt sogar, dass SVD numerisch stabiler ist als eigendecomposition. Nach meinem Verständnis sollten wir für …



3
Warum ist die AUC für einen weniger genauen Klassifikator höher als für einen genaueren?
Ich habe zwei Klassifikatoren A: naives Bayes'sches Netzwerk B: Baum (einfach verbunden) Bayesianisches Netzwerk In Bezug auf Genauigkeit und andere Maßnahmen schneidet A vergleichsweise schlechter ab als B. Wenn ich jedoch die R-Pakete ROCR und AUC für die ROC-Analyse verwende, stellt sich heraus, dass die AUC für A höher ist …


2
Hat Statistics.com die falsche Antwort veröffentlicht?
Statistics.com hat ein Problem der Woche veröffentlicht: Die Rate der Betrugsfälle bei Wohnversicherungen beträgt 10% (jeder zehnte Schadensfall ist betrügerisch). Ein Berater hat ein maschinelles Lernsystem vorgeschlagen, um Ansprüche zu überprüfen und sie als Betrug oder Nichtbetrug zu klassifizieren. Das System erkennt betrügerische Angaben zu 90% und klassifiziert betrugsfreie Angaben …

3
Brain-Teaser: Was ist die erwartete Länge einer iid-Sequenz, die bei einer gleichmäßigen [0,1] -Verteilung monoton ansteigt?
Dies ist eine Interviewfrage für eine quantitative Analystenposition, über die hier berichtet wird . Angenommen, wir zeichnen aus einer gleichmäßigen [0,1][0,1][0,1] -Verteilung und die Ziehungen lauten: Wie lang ist die erwartete monoton ansteigende Verteilung? Das heißt, wir hören auf zu zeichnen, wenn die aktuelle Auslosung kleiner oder gleich der vorherigen …

4
Extrapolation v. Interpolation
Was ist der Unterschied zwischen Extrapolation und Interpolation und wie werden diese Begriffe am genauesten verwendet? Zum Beispiel habe ich eine Aussage in einer Arbeit gesehen, in der Interpolation verwendet wurde als: Die Prozedur interpoliert die Form der geschätzten Funktion zwischen den Bin-Punkten. Ein Satz, der sowohl Extrapolation als auch …

2
Was ist das statistische Modell hinter dem SVM-Algorithmus?
Ich habe gelernt, dass der erste Schritt beim Umgang mit Daten mithilfe eines modellbasierten Ansatzes die Modellierung von Datenprozeduren als statistisches Modell ist. Der nächste Schritt ist die Entwicklung eines effizienten / schnellen Inferenz- / Lernalgorithmus basierend auf diesem statistischen Modell. Ich möchte also fragen, welches statistische Modell hinter dem …

3
Warum ist eine Mischung zweier normalverteilter Variablen nur bimodal, wenn sich ihre Mittelwerte um mindestens das Zweifache der gemeinsamen Standardabweichung unterscheiden?
Unter Mischung von zwei Normalverteilungen: https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions "Eine Mischung aus zwei Normalverteilungen hat fünf Parameter zu schätzen: die zwei Mittelwerte, die zwei Varianzen und den Mischungsparameter. Eine Mischung aus zwei Normalverteilungen mit gleichen Standardabweichungen ist nur dann bimodal, wenn sich ihre Mittelwerte um mindestens das Doppelte der gemeinsamen Standardabweichung unterscheiden . …
28 bimodal 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.