Zunächst möchte ich einige gängige Layouts beschreiben, die in Data Mining-Büchern verwendet werden, um den Umgang mit unsymmetrischen Datasets zu erläutern . Normalerweise heißt der Hauptabschnitt Unbalanced Datasets und deckt diese beiden Unterabschnitte ab: Cost-Sensitive Classification und Sampling Techniques.
Es scheint, dass Sie bei einem Problem mit einer seltenen Klasse sowohl eine kostensensitive Klassifizierung als auch eine Stichprobenerhebung durchführen können. Stattdessen denke ich, dass man kostensensitive Techniken anwenden sollte, wenn die seltene Klasse auch das Ziel der Klassifizierung ist und eine Fehlklassifizierung eines Datensatzes dieser Klasse kostspielig ist.
Andererseits sind Stichprobenverfahren wie Über- und Unterabtastung nützlich, wenn das Ziel der Klassifizierung insgesamt eine gute Genauigkeit ist, ohne sich auf eine bestimmte Klasse zu konzentrieren.
Diese Annahme beruht auf der Überlegung von MetaCost , mit der ein Klassifikator generell kostensensitiv gemacht wird: Wenn ein Klassifikator kostensensitiv gemacht werden soll, um einen Fehlklassifizierungsfehler der seltenen Klasse zu bestrafen, sollte er die andere Klasse überbewerten . Grob gesagt versucht der Klassifikator, sich an die andere Klasse anzupassen, und wird spezifisch für die seltene Klasse.
Dies ist das Gegenteil von einer Überabtastung der seltenen Klasse, die normalerweise vorgeschlagen wird, um dieses Problem zu lösen. Überabtastung der seltenen Klasse oder Unterabtastung der anderen Klasse ist nützlich, um die Gesamtgenauigkeit zu verbessern.
Bitte, es wäre großartig, wenn Sie meine Gedanken bestätigen würden.
In diesem Sinne lautet die häufigste Frage, die sich einem unausgeglichenen Datensatz stellt,:
Sollte ich versuchen, einen Datensatz zu erhalten, der so viele seltene Datensätze enthält wie andere?
Meine Antwort wäre, falls Sie nach Genauigkeit suchen: OK. Sie können dies entweder durchführen, indem Sie seltenere Klassenbeispiele herausfinden oder einige Datensätze der anderen Klasse löschen.
Wenn Sie sich mit einer kostensensitiven Technik auf die seltene Klasse konzentrieren, würde ich antworten: Sie können nur ein selteneres Klassenbeispiel herausfinden, aber Sie sollten keine Datensätze der anderen Klasse löschen. In letzterem Fall können Sie den Klassifizierer nicht an die andere Klasse anpassen lassen, und der seltene Klassifizierungsfehler kann zunehmen.
Was würdest du antworten?