Wie funktioniert ein Perzeptron mit mehreren Klassen?

13

Ich habe keinen mathematischen Hintergrund, aber ich verstehe, wie das einfache Perceptron funktioniert, und ich glaube, ich verstehe das Konzept einer Hyperebene (ich stelle es mir geometrisch als eine Ebene im 3D-Raum vor, die zwei Punktwolken trennt, nur als eine Linie, die sie trennt) zwei Punktwolken im 2D-Raum).

Aber ich verstehe nicht, wie eine Ebene oder eine Linie drei verschiedene Punktwolken im 3D-Raum bzw. im 2D-Raum trennen kann - das ist geometrisch nicht möglich, oder?

Ich habe versucht, den entsprechenden Abschnitt im Wikipedia-Artikel zu verstehen, bin aber schon beim Satz "Hier werden die Eingabe x und die Ausgabe y aus beliebigen Mengen gezogen" kläglich gescheitert. Könnte mir jemand das Multiklassen-Perzeptron erklären und wie es mit der Idee der Hyperebene zusammenhängt, oder mich auf eine nicht so mathematische Erklärung hinweisen?

— wnstnsmth
quelle

8

Angenommen, wir haben Daten wobei Eingangsvektoren sind und die Klassifikationen sind. $(x_1, y_1), \dots, (x_k,y_k)$ $x_i \in \mathbb{R}^n$ $y_i \in \{\text{red, blue, green} \}$

Wir wissen, wie man einen Klassifikator für binäre Ergebnisse erstellt, also machen wir das dreimal: Gruppieren Sie die Ergebnisse , und . $\{\text{red, blue or green} \}$ $\{\text{blue, red or green} \}$ $\{\text{green, blue or red} \}$

Jedes Modell hat die Form einer Funktion , nennt sie verbunden. Dies nimmt einen Eingabevektor zum vorzeichenbehafteten Abstand von der Hyperebene, die jedem Modell zugeordnet ist, wobei der positive Abstand einer Vorhersage von Blau bei , Rot bei und Grün bei . Grundsätzlich, je positiver ist, desto mehr denkt das Modell, dass $f: \mathbb{R}^n \to \mathbb{R}$ $f_R, f_B, f_G$ $f_B$ $f_R$ $f_G$ $f_G(x)$ $x$ ist grün und umgekehrt. Wir brauchen nicht, dass die Ausgabe eine Wahrscheinlichkeit ist, wir müssen nur messen können, wie sicher das Modell ist.

Wenn eine Eingabe , klassifizieren wir sie gemäß . Wenn also die größte unter , würden wir dies tun sagen Sie Grün für voraus . $x$ $\text{argmax}_{c} \ f_c(x)$ $f_G(x)$ $\{f_G(x), f_B(x), f_R(x) \}$ $x$

Diese Strategie nennt sich "one vs all" und kann hier nachgelesen werden .

— Harri
quelle

3

Ich kann diesen Wiki-Artikel überhaupt nicht verstehen. Hier ist eine alternative Erklärung.

Ein Perzeptron mit einem logistischen Ausgabeknoten ist ein Klassifizierungsnetzwerk für 2 Klassen. Es gibt , die Wahrscheinlichkeit, in einer der Klassen zu sein, und die Wahrscheinlichkeit, in der anderen zu sein, einfach . $p$ $1 - p$

$p_i$ $1 - \sum_{i=(1,2)} p_i$

$m$ $m + 1$

— Hong Ooi
quelle

Sind Sie sicher, dass die Ausgabe eine tatsächliche Wahrscheinlichkeit ist? Jedenfalls weiß ich nicht, wie die multinomiale logistische Regression funktioniert, also muss ich das untersuchen. Aber gibt es keine (algorithmische) Möglichkeit zu erklären, wie ein Perzeptron mit zwei oder mehr Ausgangsknoten aufgebaut ist? Sind sie irgendwie miteinander verkettet?

— Wnstnsmth