Als «unbalanced-classes» getaggte Fragen

Daten, die in diskreten Kategorien oder * Klassen * organisiert sind, können für bestimmte Analysen Probleme bereiten, wenn die Anzahl der Beobachtungen ( ), die zu jeder Klasse gehören, über Klassen hinweg nicht konstant ist. Klassen mit ungleichem sind * unausgeglichen *. nn

3
Kommt es bei der logistischen Regression auf eine unausgeglichene Stichprobe an?
Okay, ich denke, ich habe eine ausreichend gute Stichprobe, unter Berücksichtigung der 20: 1-Faustregel: eine ziemlich große Stichprobe (N = 374) für insgesamt 7 Kandidaten-Prädiktorvariablen. Mein Problem ist das Folgende: Unabhängig davon, welchen Satz von Prädiktorvariablen ich verwende, werden die Klassifikationen nie besser als eine Spezifität von 100% und eine …

5
Wann sind unausgeglichene Daten beim maschinellen Lernen wirklich ein Problem?
Wir hatten bereits mehrere Fragen zu unausgeglichenen Daten bei der Verwendung von logistischer Regression , SVM , Entscheidungsbäumen , Absacken und einer Reihe anderer ähnlicher Fragen, was es zu einem sehr beliebten Thema macht! Leider scheint jede der Fragen algorithmenspezifisch zu sein, und ich habe keine allgemeinen Richtlinien für den …




1
Verändert das Downsampling die logistischen Regressionskoeffizienten?
Wenn ich über einen Datensatz mit einer sehr seltenen positiven Klasse verfüge und die negative Klasse heruntersuche, muss ich dann eine logistische Regression durchführen, um die Regressionskoeffizienten anzupassen, um die Tatsache widerzuspiegeln, dass ich die Prävalenz der positiven Klasse geändert habe? Angenommen, ich habe einen Datensatz mit 4 Variablen: Y, …

3
Was ist die Hauptursache für das Problem des Klassenungleichgewichts?
Ich habe in letzter Zeit viel über das "Klassenungleichgewichtsproblem" beim maschinellen / statistischen Lernen nachgedacht und gehe immer tiefer in das Gefühl ein, dass ich einfach nicht verstehe, was los ist. Lassen Sie mich zuerst meine Begriffe definieren (oder versuchen, sie zu definieren): Das Problem des Klassenungleichgewichts beim maschinellen / …

4
Optimierung für Precision-Recall-Kurven bei Klassenungleichgewicht
Ich habe eine Klassifizierungsaufgabe mit einer Reihe von Prädiktoren (von denen einer der informativste ist), und ich verwende das MARS- Modell, um meinen Klassifizierer zu konstruieren (ich interessiere mich für ein einfaches Modell und würde glms zur Veranschaulichung verwenden) auch gut). Jetzt habe ich ein großes Klassenungleichgewicht in den Trainingsdaten …

4
Wann sollte ich Klassen in einem Trainingsdatensatz ausgleichen?
Ich hatte einen Online-Kurs, in dem ich erfuhr, dass unausgeglichene Klassen in den Trainingsdaten zu Problemen führen können, da Klassifizierungsalgorithmen für die Mehrheitsregel gelten, da sie gute Ergebnisse liefern, wenn die Unausgeglichenheit zu groß ist. In einer Aufgabe musste man die Daten durch Unterabtastung der Mehrheitsklasse ausgleichen. In diesem Blog …


4
Was ist die richtige Verwendung von scale_pos_weight in xgboost für unausgeglichene Datasets?
Ich habe einen sehr unausgeglichenen Datensatz. Ich versuche den Tuning-Ratschlägen zu folgen und zu verwenden scale_pos_weight, bin mir aber nicht sicher, wie ich es tunen soll. Ich kann sehen, dass RegLossObj.GetGradient: if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight Ein Gradient einer positiven Probe wäre also einflussreicher. Dem xgboost-Artikel zufolge wird …


2
Wie gehe ich mit dem Unterschied zwischen der Verteilung des Testsatzes und des Trainingssatzes um?
Ich denke, eine Grundannahme des maschinellen Lernens oder der Parameterschätzung ist, dass die unsichtbaren Daten aus derselben Verteilung stammen wie der Trainingssatz. In einigen praktischen Fällen wird sich die Verteilung des Testsatzes jedoch fast von der des Trainingssatzes unterscheiden. Sagen wir für ein umfangreiches Multiklassifizierungsproblem, bei dem versucht wird, Produktbeschreibungen …

3
Klassifizierungs- / Bewertungsmetriken für stark unausgeglichene Daten
Ich beschäftige mich mit einem (kreditbewertungsähnlichen) Problem der Betrugserkennung. Insofern besteht ein sehr unausgewogenes Verhältnis zwischen betrügerischen und nicht betrügerischen Beobachtungen. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html bietet einen hervorragenden Überblick über verschiedene Klassifizierungsmetriken. Precision and Recalloder kappabeide scheinen eine gute Wahl zu sein: Eine Möglichkeit, die Ergebnisse solcher Klassifikatoren zu rechtfertigen, besteht darin, sie …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.