Wie ist die Interpretation der Zahl, die die logistische Regressionsfunktion ausgibt?
Die logistische Funktion
(wobei eine lineare Funktion ist) soll eine kontinuierliche Variable (oder allgemeiner eine ganze Reihe vollständig geordneter Variablen) zwischen 0 und 1 abbilden.
Ich habe immer angenommen, dass es die Wahrscheinlichkeit ist, in den einen oder anderen Satz aufgenommen zu werden. Der Bereich ist (naja, vielleicht nicht 0 und 1), was eine Wahrscheinlichkeit ist. Und ehrlich gesagt alles zwischen 0 und 1, was könnte es anders sein als eine Wahrscheinlichkeit.
Aber als ich die Kurve betrachtete, begann ich zu zweifeln. Ich fragte mich, ob es unbedingt als Wahrscheinlichkeit zu interpretieren ist. Es sieht aus wie eine Wahrscheinlichkeit, aber ist es wirklich? Nur weil sie den gleichen Bereich teilen, heißt das nicht, dass sie gleich sind. Wenn , bedeutet das wirklich, dass von kleiner als ?
Dies könnte in zwei Richtungen gehen:
Angenommen, es handelt sich um eine Wahrscheinlichkeit oder genauer um die Wahrscheinlichkeit einer "wahren", "1" oder "positiven" Klassifizierung eines Punkts in der Domäne. Wie ist das gerechtfertigt?
Angenommen, nicht. Was ist es dann genau und warum? Wie weit ist es von einer Wahrscheinlichkeit entfernt (numerisch und konzeptionell)?
Eine andere Möglichkeit, dies zu sagen, ist das Besondere an . Warum nicht eine monoton ansteigende ungerade (ungefähr ) Funktion mit demselben Bereich wie oder (sehr nahe, aber nicht gleich der logistischen Funktion)
oder offen gesagt ?