Als «classification» getaggte Fragen

Die statistische Klassifizierung ist das Problem der Identifizierung der Teilpopulation, zu der neue Beobachtungen gehören, bei der die Identität der Teilpopulation unbekannt ist, auf der Grundlage eines Trainingssatzes von Daten, die Beobachtungen enthalten, deren Teilpopulation bekannt ist. Daher zeigen diese Klassifikationen ein variables Verhalten, das statistisch untersucht werden kann.


2
Ist Genauigkeit = 1 - Testfehlerrate
Entschuldigung, wenn dies eine sehr offensichtliche Frage ist, aber ich habe verschiedene Beiträge gelesen und kann anscheinend keine gute Bestätigung finden. Ist bei der Klassifizierung die Genauigkeit eines Klassifikators = 1 - Testfehlerrate ? Ich verstehe, dass die Genauigkeit , aber meine Frage ist, wie genau Genauigkeit und Testfehlerrate zusammenhängen. …

4
Prüfen, ob die Genauigkeitsverbesserung signifikant ist
Angenommen, ich habe einen Algorithmus, der die Dinge in zwei Kategorien unterteilt. Ich kann die Genauigkeit des Algorithmus an beispielsweise 1000 Testobjekten messen. Angenommen, 80% der Objekte sind korrekt klassifiziert. Nehmen wir an, ich ändere den Algorithmus irgendwie so, dass 81% der Dinge richtig klassifiziert sind. Können Statistiken Aufschluss darüber …


2
Wie arbeitet Naive Bayes mit kontinuierlichen Variablen?
Nach meinem (sehr grundlegenden) Verständnis schätzt Naive Bayes die Wahrscheinlichkeiten basierend auf den Klassenhäufigkeiten der einzelnen Merkmale in den Trainingsdaten. Aber wie berechnet es die Häufigkeit kontinuierlicher Variablen? Und wie klassifiziert es bei der Vorhersage eine neue Beobachtung, die möglicherweise nicht die gleichen Werte wie eine Beobachtung im Trainingssatz aufweist? …

1
Vergleich zweier Modelle, wenn sich die ROC-Kurven kreuzen
Eine gebräuchliche Maßnahme zum Vergleich von zwei oder mehr Klassifizierungsmodellen besteht darin, die Fläche unter der ROC-Kurve (AUC) als Mittel zur indirekten Bewertung ihrer Leistung zu verwenden. In diesem Fall wird ein Modell mit einer größeren AUC normalerweise als leistungsstärker interpretiert als ein Modell mit einer kleineren AUC. Laut Vihinen, …

4
Sollte man sich Gedanken über Multi-Kollinearität machen, wenn man nichtlineare Modelle verwendet?
Angenommen, wir haben ein Binärklassifizierungsproblem mit hauptsächlich kategorialen Merkmalen. Wir verwenden ein nichtlineares Modell (z. B. XGBoost oder Random Forests), um es zu lernen. Sollte man sich immer noch Sorgen um Multi-Kollinearität machen? Warum? Wenn die Antwort auf das oben Gesagte zutrifft, wie sollte man dagegen vorgehen, wenn man bedenkt, …

3
Wie können maschinelle Lernmodelle (GBM, NN usw.) für die Überlebensanalyse verwendet werden?
Ich weiß , dass traditionelle statistische Modelle wie Cox Proportional - Hazards - Regression und einige Kaplan-Meier - Modelle verwendet werden können Tage bis zum nächsten Auftreten eines Ereignisses sagt Ausfall etc. dh zur Vorhersage überleben Analyse Fragen Wie können Regressionsversionen von Modellen für maschinelles Lernen wie GBM, neuronale Netze …


2
Ist es mit dem Caret-Paket möglich, Verwechslungsmatrizen für bestimmte Schwellenwerte zu erhalten?
Ich habe ein logistisches Regressionsmodell (Via train) für eine binäre Antwort erhalten, und ich habe die logistische Verwirrungsmatrix über confusionMatrixin erhalten caret. Es gibt mir die logistische Modellverwirrungsmatrix, obwohl ich nicht sicher bin, welcher Schwellenwert verwendet wird, um es zu erhalten. Wie erhalte ich die Verwirrungsmatrix für bestimmte Schwellenwerte mit …


3
PCA zu hochdimensionalen Textdaten vor der zufälligen Waldklassifikation?
Ist es sinnvoll, PCA durchzuführen, bevor eine zufällige Waldklassifizierung durchgeführt wird? Ich habe es mit hochdimensionalen Textdaten zu tun, und ich möchte eine Feature-Reduzierung durchführen, um den Fluch der Dimensionalität zu vermeiden. Ist Random Forests nicht bereits auf eine Art von Dimensionsreduzierung eingestellt?

2
Mathematik hinter Klassifikations- und Regressionsbäumen
Kann jemand helfen, einige der Mathematik hinter der Klassifizierung in CART zu erklären? Ich möchte verstehen, wie zwei Hauptphasen ablaufen. Zum Beispiel habe ich einen CART-Klassifikator für ein Dataset trainiert und ein Test-Dataset verwendet, um die prädiktive Leistung zu kennzeichnen, aber: Wie wird die ursprüngliche Wurzel des Baumes gewählt? Warum …

1
Wiedergabe von Tabelle 18.1 aus „Elemente des statistischen Lernens“
Tabelle 18.1 in den Elementen des statistischen Lernens fasst die Leistung mehrerer Klassifikatoren in einem 14-Klassen-Datensatz zusammen. Ich vergleiche einen neuen Algorithmus mit dem Lasso und dem elastischen Netz für solche Klassifizierungsprobleme mit mehreren Klassen. Unter Verwendung von glmnetVersion 1.5.3 (R 2.13.0) kann ich Punkt 7 (das mit -penalisierte Multinom) …

4
Wie interpretiere ich eine ROC-Kurve?
Ich habe die logistische Regression auf meine SAS-Daten angewendet. Hier sind die ROC-Kurve und die Klassifizierungstabelle. Ich bin mit den Zahlen in der Klassifikationstabelle einverstanden, weiß aber nicht genau, wie die ROC-Kurve und die Fläche darunter aussehen. Jede Erklärung wäre sehr dankbar.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.