Dies ist eine allgemeine Frage, die hier indirekt mehrmals gestellt wurde, aber es fehlt eine einzige maßgebliche Antwort. Es wäre großartig, eine ausführliche Antwort auf diese Frage als Referenz zu haben. Die Genauigkeit , der Anteil der korrekten Klassifizierungen an allen Klassifizierungen, ist sehr einfach und sehr "intuitiv" zu messen, …
Ich habe dies zuvor bei StackOverflow gefragt, aber es scheint, als wäre es hier angemessener, da es auf SO keine Antworten gab. Es ist eine Art Schnittstelle zwischen Statistik und Programmierung. Ich muss Code schreiben, um PCA (Principal Component Analysis) durchzuführen. Ich habe die bekannten Algorithmen durchgesehen und diese implementiert …
Mir ist aufgefallen, dass es einige Implementierungen von Random Forest wie ALGLIB, Waffles und einige R-Pakete gibt randomForest. Kann mir jemand sagen, ob diese Bibliotheken hoch optimiert sind? Entsprechen sie im Wesentlichen den Zufallsforsten, wie in den Elementen des statistischen Lernens beschrieben, oder wurden viele zusätzliche Tricks hinzugefügt? Ich hoffe, …
Eines der größten Probleme bei der Clusteranalyse ist, dass wir möglicherweise unterschiedliche Schlussfolgerungen ziehen müssen, wenn wir auf unterschiedlichen verwendeten Clustering-Methoden (einschließlich unterschiedlicher Verknüpfungsmethoden bei hierarchischem Clustering) basieren. Ich möchte Ihre Meinung dazu wissen - welche Methode Sie wählen, und wie. Man könnte sagen "Die beste Methode zum Clustering ist …
Kürzlich bin ich auf ein Dokument gestoßen, das die Verwendung eines k-NN- Klassifikators für einen bestimmten Datensatz vorschlägt . Die Autoren verwendeten alle verfügbaren Datenproben, um eine k-fache Kreuzvalidierung für verschiedene k- Werte durchzuführen und Kreuzvalidierungsergebnisse der besten Hyperparameterkonfiguration zu melden. Meines Wissens ist dieses Ergebnis verzerrt, und sie sollten …
Wie wir alle wissen, gibt es zwei Methoden, um das logistische Regressionsmodell zu bewerten, und sie testen sehr unterschiedliche Dinge Vorhersagekraft: Erhalten Sie eine Statistik, die misst, wie gut Sie die abhängige Variable basierend auf den unabhängigen Variablen vorhersagen können. Die bekannten Pseudo R ^ 2 sind McFadden (1974) und …
Ich beschäftige mich mit einem (kreditbewertungsähnlichen) Problem der Betrugserkennung. Insofern besteht ein sehr unausgewogenes Verhältnis zwischen betrügerischen und nicht betrügerischen Beobachtungen. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html bietet einen hervorragenden Überblick über verschiedene Klassifizierungsmetriken. Precision and Recalloder kappabeide scheinen eine gute Wahl zu sein: Eine Möglichkeit, die Ergebnisse solcher Klassifikatoren zu rechtfertigen, besteht darin, sie …
Kaggles Wettbewerb Die Safe Driver Prediction von Porto Seguro verwendet den normalisierten Gini-Score als Bewertungsmaßstab. Dies hat mich neugierig gemacht, welche Gründe für diese Entscheidung sprechen . Was sind die Vorteile der Verwendung eines normalisierten Gini-Scores anstelle der gebräuchlichsten Metriken wie AUC für die Auswertung?
Eine gebräuchliche Maßnahme zum Vergleich von zwei oder mehr Klassifizierungsmodellen besteht darin, die Fläche unter der ROC-Kurve (AUC) als Mittel zur indirekten Bewertung ihrer Leistung zu verwenden. In diesem Fall wird ein Modell mit einer größeren AUC normalerweise als leistungsstärker interpretiert als ein Modell mit einer kleineren AUC. Laut Vihinen, …
Sind die Phi- und Matthews-Korrelationskoeffizienten dasselbe Konzept? In welcher Beziehung stehen sie zum Pearson-Korrelationskoeffizienten für zwei Binärvariablen oder entsprechen diesen? Ich gehe davon aus, dass die Binärwerte 0 und 1 sind. Die Pearson-Korrelation zwischen zwei Bernoulli-Zufallsvariablen und y ist:xxxyyy ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]−−−−−−−−−−√=E[xy]−E[x]E[y]Var[x]Var[y]−−−−−−−−−−√=n11n−n1∙n∙1n0∙n1∙n∙0n∙1−−−−−−−−−−√ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]=E[xy]−E[x]E[y]Var[x]Var[y]=n11n−n1∙n∙1n0∙n1∙n∙0n∙1 \rho = \frac{\mathbb{E} [(x - \mathbb{E}[x])(y - \mathbb{E}[y])]} {\sqrt{\text{Var}[x] \, …
In meinem Unterricht wurde die Holdout-Methode eingeführt, um die Modellleistung zu bewerten. Als ich meinen ersten Kurs über lineare Modelle belegte, wurde dies jedoch nicht als Mittel zur Modellvalidierung oder -bewertung eingeführt. Meine Online-Recherche zeigt auch keinerlei Schnittmenge. Warum wird die Holdout-Methode in der klassischen Statistik nicht verwendet?
Ich war in dem Python über Regressions Metriken Lese Scikit-Learn Handbuch und obwohl jeder von ihnen seine eigenen Formel hat, kann ich nicht intuitiv sagen , was ist der Unterschied zwischen und Varianz - Score und daher , wenn der eine oder andere zu verwenden , um zu bewerten meine …
Ich wollte den genauen Test des Fischers besser verstehen, deshalb habe ich das folgende Spielzeugbeispiel entwickelt, bei dem f und m männlich und weiblich und n und y dem "Sodakonsum" wie folgt entsprechen: > soda_gender f m n 0 5 y 5 0 Dies ist natürlich eine drastische Vereinfachung, aber …
Dies ist der F-Beta-Score: Fβ=(1+β2)⋅precision⋅recall(β2⋅precision)+recallFβ=(1+β2)⋅precision⋅recall(β2⋅precision)+recallF_\beta = (1 + \beta^2) \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{(\beta^2 \cdot \mathrm{precision}) + \mathrm{recall}} Der Wikipedia-Artikel besagt, dass .FβFβF_\beta "measures the effectiveness of retrieval with respect to a user who attaches β times as much importance to recall as precision" Ich habe die Idee nicht bekommen. Warum …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.