Ja, Sie haben Recht, dass es an Identifizierbarkeit mangelt, es sei denn, einer der Koeffizientenvektoren ist fest. Es gibt einige Gründe, die dies nicht erwähnen. Ich kann nicht sagen, warum sie dieses Detail weglassen, aber hier ist eine Erklärung, was es ist und wie es behoben werden kann.
Beschreibung
yi∈{0,1,2,…,K−1}x⊺i∈Rpi1nK pβ0,β1,…,βK−1
Die Softmax-Funktion ist in der Tat definiert als
das schöne Eigenschaften wie Differenzierbarkeit hat, summiert sich zu usw.softmax(z)i=exp(zi)∑K−1l=0exp(zl),
1
Die multinomiale logistische Regression verwendet die Softmax-Funktion für jede Beobachtung auf dem Vektor
i⎡⎣⎢⎢⎢⎢⎢x⊺iβ0x⊺iβ1⋮x⊺iβK−1,⎤⎦⎥⎥⎥⎥⎥
was bedeutet
⎡⎣⎢⎢⎢⎢⎢P(yi=0)P(yi=1)⋮P(yi=K−1)⎤⎦⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺iβ0]∑K−1k=0exp[x⊺iβk]exp[x⊺iβ1]∑K−1k=0exp[x⊺iβk]⋮exp[x⊺iβK−1]∑K−1k=0exp[x⊺iβk]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥.
Das Problem
Die Wahrscheinlichkeit ist jedoch nicht identifizierbar, da mehrere Parametersammlungen dieselbe Wahrscheinlichkeit ergeben. Wenn Sie beispielsweise alle Koeffizientenvektoren um denselben Vektor wird dieselbe Wahrscheinlichkeit erzeugt. Dies ist ersichtlich, wenn Sie den Zähler und Nenner jedes Elements des Vektors mit einer Konstanten multiplizieren. Daran ändert sich nichts:cexp[−x⊺ic]
⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺iβ0]∑K−1k=0exp[x⊺iβk]exp[x⊺iβ1]∑K−1k=0exp[x⊺iβk]⋮exp[x⊺iβK−1]∑K−1k=0exp[x⊺iβk]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺i(β0−c)]∑K−1k=0exp[x⊺i(βk−c)]exp[x⊺i(β1−c)]∑K−1k=0exp[x⊺i(βk−c)]⋮exp[x⊺i(βK−1−c)]∑K−1k=0exp[x⊺i(βk−c)]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥.
Es reparieren
Um dies zu beheben, müssen Sie die Parameter einschränken. Das Reparieren eines von ihnen führt zur Identifizierbarkeit, da das Verschieben aller nicht mehr zulässig ist.
Es gibt zwei gängige Möglichkeiten:
- setze , was (du erwähnst dieses), undc=β0β0=0
- setze , was .c=βK−1βK−1=0
Ignoriere es
Manchmal ist die Einschränkung jedoch nicht erforderlich. Zum Beispiel, wenn Sie für die Menge einen Konfidenzintervall interessiert waren bei der Bildung , dann ist dies das gleiche wie , so Folgerung auf Relative Mengen spielen keine Rolle. Wenn Ihre Aufgabe eine Vorhersage anstelle einer Parameterinferenz ist, bleiben Ihre Vorhersagen unberührt, wenn alle Koeffizientenvektoren geschätzt werden (ohne einen einzuschränken).β01−β21β01−c−[β21−c]