Wie gehe ich mit einem Klassifizierungsproblem um, bei dem eine der Klassen durch "keine der anderen" definiert ist?

Angenommen, ich interessiere mich für drei Klassen , , . Mein Datensatz enthält jedoch tatsächlich mehrere weitere reale Klassen . $c_1$ $c_2$ $c_3$ $(c_j)_{j=4}^n$

Die offensichtliche Antwort besteht darin, eine neue Klasse zu definieren , die sich auf alle Klassen , bezieht, aber ich vermute, dass dies keine gute Idee ist, da die Beispiele in selten und nicht sehr ähnlich zueinander sind. $\hat c_4$ $c_j$ $j>3$ $\hat c_4$

Angenommen, ich habe die folgenden zwei Variablenräume und die Klassen , , , sind in Rot, Bis, Grün und dargestellt jeweils schwarz. So vermute ich, dass meine Daten aussehen würden. $c_1$ $c_2$ $c_3$ $\hat c_4= \bigcup_{j=4}^n c_j$

Gibt es eine Standardmethode, um dieses Problem anzugehen? Was wäre der effizienteste Klassifikator und warum?

machine-learning classification

— h3h325
quelle

— Erwägen

Möglicherweise möchten Sie positiv unbeschriftete Modelle untersuchen . Es sieht nach einem ähnlichen Problem aus, außer dass es sich um eine Mehrklassenklasse handelt, die nicht wie die meisten PU-Probleme binär ist.

— Ricardo Cruz

Ich würde einen zweistufigen Ansatz verwenden und die Idee der von Ihnen erwähnten Klasse . $\hat{c_4}$

Verwenden Sie im ersten Schritt einen binären Klassifikator (der für den gesamten Datensatz trainiert wurde), um zu entscheiden, ob eine Stichprobe zur Klasse (dh in einer nicht interessanten Klasse). In diesem Schritt können Sie auch einen Blick auf Ausreißererkennungsmethoden werfen , wenn sich die zu den "interessanten" Klassen gehörenden Proben stark von den anderen unterscheiden. $\hat{c_4}$

Wenn das Ergebnis negativ ist, fahren Sie mit dem nächsten Schritt fort, einem neuen Klassifikator, der nur für Stichproben der Klassen und verwenden Sie diese Vorhersage als Ihre letzte. $c_1,c_2,c_3$

Ich denke, dass selbst bei Verwendung eines einfachen Clustering-Ansatzes als erster Schritt (z. B. 4-Clustering k-bedeutet die Verwendung des durchschnittlichen Schwerpunkts als anfängliche Schwerpunktwerte. für jedes ) wäre immer noch nützlich. $cent_j = \frac{\sum\limits_{x_i\in D: y_i=j}x_i}{\sum\limits_{x_i\in D: y_i=j}1}$ $c_1,c_2,c_3, \hat{c_4}$

— Bogas
quelle

Bogas Vorschlag ist großartig, wenn Sie nicht viel Klassenüberlappung haben. Verwenden Sie andernfalls ein Multi-Label-Modell.

— Ricardo Cruz

Dies ist eine en.wikipedia.org/wiki/Cascading_classifiers

— Emre