Basierend auf der geschätzten Klassifizierungsgenauigkeit möchte ich testen, ob ein Klassifizierer statistisch besser als ein anderer Klassifizierer ist. Für jeden Klassifikator wähle ich zufällig eine Trainings- und Teststichprobe aus dem Basissatz aus, trainiere das Modell und teste das Modell. Ich mache das zehnmal für jeden Klassifikator. Ich habe daher zehn …
Ich versuche verschiedene Kreuzvalidierungsmethoden zu erlernen, hauptsächlich mit der Absicht, sie auf überwachte multivariate Analysetechniken anzuwenden. Zwei, auf die ich gestoßen bin, sind K-Fold- und Monte-Carlo-Kreuzvalidierungstechniken. Ich habe gelesen, dass K-Fold eine Variation von Monte Carlo ist, aber ich bin mir nicht sicher, was genau die Definition von Monte Carlo …
Für univariate Kerneldichteschätzer (KDE) verwende ich die Silverman-Regel zur Berechnung von :hhh 0.9min(sd,IQR/1.34)×n−0.20.9min(sd,IQR/1.34)×n−0.2\begin{equation} 0.9 \min(sd, IQR/1.34)\times n^{-0.2} \end{equation} Was sind die Standardregeln für multivariates KDE (unter der Annahme eines normalen Kernels)?
Ich verwende Caret, um eine kreuzvalidierte zufällige Gesamtstruktur über ein Dataset auszuführen. Die Y-Variable ist ein Faktor. In meinem Datensatz befinden sich keine NaNs, Infs oder NAs. Allerdings bekomme ich, wenn ich den zufälligen Wald laufen lasse Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) …
Ich mache den Stanford-Kurs für maschinelles Lernen auf Coursera. Im Kapitel zur logistischen Regression lautet die Kostenfunktion wie folgt: Dann wird es hier abgeleitet: Ich habe versucht, die Ableitung der Kostenfunktion zu erhalten, aber etwas völlig anderes. Wie wird das Derivat erhalten? Was sind die Zwischenschritte?
Ich studiere PCA von Andrew Ngs Coursera-Kurs und anderen Materialien. In der ersten Aufgabe des Stanford NLP-Kurses cs224n und im Vorlesungsvideo von Andrew Ng wird anstelle der Eigenvektorzerlegung der Kovarianzmatrix eine Singulärwertzerlegung durchgeführt, und Ng sagt sogar, dass SVD numerisch stabiler ist als eigendecomposition. Nach meinem Verständnis sollten wir für …
Ich habe unten ein Beispiel aus der Dokumentation sklearn.metrics.classification_report von sklearn. Was ich nicht verstehe, ist, warum es für jede Klasse, für die ich glaube, dass die Klasse das Prädiktorlabel ist, Werte für f1-Punktzahl, Präzision und Rückruf gibt? Ich dachte, der f1-Score sagt Ihnen die Gesamtgenauigkeit des Modells. Was sagt …
Ich verwende das Robustbase- Paket, um eine glm-Schätzung durchzuführen. Wenn ich es jedoch tue, erhalte ich die folgende Fehlermeldung: Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 Was bedeutet das? Und wie kann ich es debuggen? PS. Wenn Sie etwas benötigen …
Ich habe zwei Klassifikatoren A: naives Bayes'sches Netzwerk B: Baum (einfach verbunden) Bayesianisches Netzwerk In Bezug auf Genauigkeit und andere Maßnahmen schneidet A vergleichsweise schlechter ab als B. Wenn ich jedoch die R-Pakete ROCR und AUC für die ROC-Analyse verwende, stellt sich heraus, dass die AUC für A höher ist …
Ich versuche, eine Metrik zum Messen der Ungleichmäßigkeit einer Verteilung für ein Experiment zu finden, das ich durchführe. Ich habe eine Zufallsvariable, die in den meisten Fällen gleichmäßig verteilt sein sollte, und ich möchte in der Lage sein, Beispiele für Datensätze zu identifizieren (und möglicherweise deren Grad zu messen), bei …
Statistics.com hat ein Problem der Woche veröffentlicht: Die Rate der Betrugsfälle bei Wohnversicherungen beträgt 10% (jeder zehnte Schadensfall ist betrügerisch). Ein Berater hat ein maschinelles Lernsystem vorgeschlagen, um Ansprüche zu überprüfen und sie als Betrug oder Nichtbetrug zu klassifizieren. Das System erkennt betrügerische Angaben zu 90% und klassifiziert betrugsfreie Angaben …
Dies ist eine Interviewfrage für eine quantitative Analystenposition, über die hier berichtet wird . Angenommen, wir zeichnen aus einer gleichmäßigen [0,1][0,1][0,1] -Verteilung und die Ziehungen lauten: Wie lang ist die erwartete monoton ansteigende Verteilung? Das heißt, wir hören auf zu zeichnen, wenn die aktuelle Auslosung kleiner oder gleich der vorherigen …
Was ist der Unterschied zwischen Extrapolation und Interpolation und wie werden diese Begriffe am genauesten verwendet? Zum Beispiel habe ich eine Aussage in einer Arbeit gesehen, in der Interpolation verwendet wurde als: Die Prozedur interpoliert die Form der geschätzten Funktion zwischen den Bin-Punkten. Ein Satz, der sowohl Extrapolation als auch …
Ich habe gelernt, dass der erste Schritt beim Umgang mit Daten mithilfe eines modellbasierten Ansatzes die Modellierung von Datenprozeduren als statistisches Modell ist. Der nächste Schritt ist die Entwicklung eines effizienten / schnellen Inferenz- / Lernalgorithmus basierend auf diesem statistischen Modell. Ich möchte also fragen, welches statistische Modell hinter dem …
Unter Mischung von zwei Normalverteilungen: https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions "Eine Mischung aus zwei Normalverteilungen hat fünf Parameter zu schätzen: die zwei Mittelwerte, die zwei Varianzen und den Mischungsparameter. Eine Mischung aus zwei Normalverteilungen mit gleichen Standardabweichungen ist nur dann bimodal, wenn sich ihre Mittelwerte um mindestens das Doppelte der gemeinsamen Standardabweichung unterscheiden . …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.