Was ist der Unterschied zwischen Multiclass und Multilabel Problem


52

Was ist der Unterschied zwischen einem Problem mit mehreren Klassen und einem Problem mit mehreren Etiketten?


Beide Aufgaben können mit dem Vowpal Wabbit-Softwarepaket ausgeführt werden (Befehlszeile, Python-Bindungen sind verfügbar).
Vladislavs Dovgalecs

Ich habe dieses Konzept gelernt und mein Verständnis mit diesem Beitrag aufgebaut . Sie haben die Klassifizierung von Mehrfachetiketten auf sehr elegante Weise erklärt.
user235077

Antworten:


45

Ich vermute, der Unterschied besteht darin, dass sich Klassen bei Problemen mit mehreren Klassen gegenseitig ausschließen, wohingegen bei Problemen mit mehreren Labels jedes Label eine andere Klassifizierungsaufgabe darstellt, die Aufgaben jedoch irgendwie zusammenhängen (es ist also von Vorteil, sie zusammen und nicht getrennt zu lösen) ). Zum Beispiel gibt es im berühmten Datensatz für Leptograspus-Krabben Beispiele für Männchen und Weibchen von zweifarbigen Krabbenarten. Sie könnten dies als ein Problem mit mehreren Klassen mit vier Klassen (männlich-blau, weiblich-blau, männlich-orange, weiblich-orange) oder als ein Problem mit mehreren Bezeichnungen betrachten, bei dem eine Bezeichnung männlich / weiblich und die andere blau wäre /Orange. Grundsätzlich kann ein Muster bei Problemen mit mehreren Etiketten zu mehr als einer Klasse gehören.


@Dirkran Danke für deine Erklärung. Kennen Sie andere Quelle , wo ich Multilabel- Dataset außer bekommen csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html und mulan.sourceforge.net/datasets.html
Learner

@Learner Entschuldigung, ich habe nicht viel daran gearbeitet. Vielleicht möchten Sie einen Blick auf Multi-Task-Learning werfen, das Ähnlichkeiten mit Multi-Label-Learning aufweist. Möglicherweise sind einige der dafür verwendeten Datensätze auch als Benchmark für das Lernen mit mehreren Labels nützlich.
Dikran Beuteltier

26

Multiklassifikation bedeutet eine Klassifikationsaufgabe mit mehr als zwei Klassen; B. klassifizieren Sie eine Reihe von Bildern von Früchten, die Orangen, Äpfel oder Birnen sein können. Bei der Klassifizierung in mehrere Klassen wird davon ausgegangen, dass jede Probe einem und nur einem Etikett zugeordnet ist: Eine Frucht kann entweder ein Apfel oder eine Birne sein, aber nicht beide gleichzeitig.

Die Multilabel-Klassifizierung weist jeder Probe eine Reihe von Zieletiketten zu. Dies kann als Vorhersage von Eigenschaften eines Datenpunkts angesehen werden, die sich nicht gegenseitig ausschließen, z. B. Themen, die für ein Dokument relevant sind. Ein Text könnte sich gleichzeitig mit Religion, Politik, Finanzen oder Bildung befassen oder mit keiner dieser Themen.

Entnommen aus http://scikit-learn.org/stable/modules/multiclass.html


18

Um die anderen Antworten zu ergänzen, hier einige Zahlen. Eine Zeile = die erwartete Ausgabe für eine Stichprobe.

Multiclass

Eine Spalte = eine Klasse (One-Hot-Codierung)

Bildbeschreibung hier eingeben

Multilabel

Eine Spalte = eine Klasse

Bildbeschreibung hier eingeben


Siehst du das:

  • Im Multilabel-Fall kann einer Probe mehr als eine Klasse zugewiesen werden.
  • im Mehrklassenfall gibt es insgesamt mehr als 2 Klassen.

Nebenbei bemerkt, nichts hindert Sie daran, ein Problem mit der Klassifizierung von mehreren Ausgängen und mehreren Klassen zu haben , z.

Bildbeschreibung hier eingeben


7

Bei einem Problem mit mehreren Klassen werden Instanzen einer endlichen, sich gegenseitig ausschließenden Sammlung von Klassen zugewiesen. Wie im Beispiel von Krabben (von @Dikran): männlich-blau, weiblich-blau, männlich-orange, weiblich-orange. Jedes von diesen ist exklusiv für das andere und zusammengenommen sind sie umfassend.

Eine Form eines Problems mit mehreren Etiketten besteht darin, diese in zwei Etiketten zu unterteilen: Geschlecht und Farbe. wo Geschlecht Mann oder Frau sein kann und Farbe blau oder orange sein kann. Beachten Sie jedoch, dass dies ein Sonderfall des Multi-Label-Problems ist, da jede Instanz jedes Label erhält (dh, jede Krabbe hat sowohl ein Geschlecht als auch eine Farbe).

Probleme mit mehreren Bezeichnungen umfassen auch andere Fälle, in denen jeder Instanz eine variable Anzahl von Bezeichnungen zugewiesen werden kann. Zum Beispiel kann ein Artikel in einer Zeitung oder einem Nachrichtendienst den Kategorien NACHRICHTEN, POLITIK, SPORT, MEDIZIN usw. zugeordnet werden. Eine Geschichte über ein wichtiges Sportereignis würde eine Zuweisung des Labels SPORT erhalten; während andere, die politische Spannungen beinhalten, die durch ein bestimmtes Sportereignis aufgedeckt werden, möglicherweise sowohl die Labels SPORT als auch POLITIK erhalten. Wo ich in den USA bin, werden die Ergebnisse des Superbowl angesichts der gesellschaftlichen Auswirkungen des Ereignisses sowohl als SPORT als auch als NACHRICHTEN bezeichnet.

Beachten Sie, dass diese Form der Etikettierung mit variabler Anzahl von Etiketten in eine Form umgewandelt werden kann, die dem Beispiel mit den Krabben ähnelt. mit der Ausnahme, dass jedes Etikett als LABEL-X oder nicht-LABEL-X behandelt wird. Aber nicht alle Methoden erfordern diese Neufassung.


2

Ein weiterer Unterschied besteht darin, dass das Modell aufgrund des Multi-Label-Problems die Korrelation zwischen den verschiedenen Klassen lernen muss. Bei Multi-Class-Problemen sind jedoch verschiedene Klassen voneinander unabhängig.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.