(Als Referenz verwende ich Kevin P Murphys Buch "Maschinelles Lernen: Eine probabilistische Perspektive" und implementiere mit MATLAN - ohne Toolboxen)
Ich habe einen Datensatz mit 392 Stichproben (Zeilen), jede Stichprobe hat 8 Merkmale (Spalten), von denen eines die Klasse definiert (dh Spalte 1 der Merkmale ist in drei gleiche Klassen unterteilt, die die drei Klassen definieren - niedrig, mittel und hoch ).
Es fällt mir wirklich schwer zu verstehen, wie ein logistisches Regressionsmodell erstellt wird, um eine Stichprobe in eine dieser drei Klassen einzuteilen.
Ich habe gerade das Lernen und Erstellen eines linearen Regressionsmodells abgeschlossen, in dem ich sowohl die Lösung für gewöhnliche kleinste Quadrate (geschlossene Form) für den Gewichtsvektor als auch die Lösung für Gradientenabstieg (offene Form) kennengelernt habe. Aber ich habe nie einen Gradientenabstieg implementiert, weil meine Daten perfekt mit der OLS-Lösung für Gewichtsvektoren übereinstimmen.
Ich bin äußerst verwirrt darüber, wie ein Gewichtsvektor für die logistische Regression erstellt wird. Ich verstehe, dass die Verwendung des Gradientenabstiegs erforderlich ist, da es keine geschlossene Lösung gibt. Ich habe auch über die Newton-Methode zur Berechnung der Gewichte gelesen, aber ich verstehe sie überhaupt nicht.
Und nachdem Sie diese Methoden zur Berechnung von Gewichten verwendet haben, wie wenden Sie die Gewichte auf die Probendaten an? Bei der linearen Regression lag dies einfach daran, dass Sie die Gewichte einfach mit den Merkmalen (und Merkmalen höherer Ordnung für die lineare Regression höherer Ordnung) multipliziert haben. Ist dies bei der logistischen Regression jedoch dasselbe?
Mein bisheriges Verständnis ist außerdem, dass dieses Modell nur für die binäre Klassifizierung funktioniert. Wie würde ich es also für drei Klassen tun?
Grundsätzlich läuft meine Frage darauf hinaus:
Wie genau finden Sie den Gewichtsvektor für die logistische Regression (entweder mit Gradientenabstieg oder mit der Newton-Methode, je nachdem, was einfacher ist) und wie wenden Sie den Gewichtsvektor auf die Stichprobe an, um daraus eine Klassifizierung für 3 Klassen (nicht nur zwei) zu erhalten. .