Die Einteilung in LDA erfolgt wie folgt (Bayes-Regelansatz). [Über die Extraktion von Diskriminanten könnte man hier schauen .]
Der gesucht für Wahrscheinlichkeit nach Bayes - Theorem, dass wir mit der Klasse zu tun haben , während zur Zeit Punkt beobachtet x ist P ( k | x ) = P ( k ) * P ( x | k ) / P ( x ) , wokxP(k|x)=P(k)∗P(x|k)/P(x)
- unbedingte (Hintergrund-) Wahrscheinlichkeit der Klasse k ; P ( x ) - unbedingte (Hintergrund-) Wahrscheinlichkeit von Punkt x ; P ( x | k ) - Wahrscheinlichkeit des Vorhandenseins von Punkt x in Klasse k , wenn die behandelte Klasse k ist .P(k)kP(x)xP(x|k)xkk
"Beobachten des aktuellen Punkts " ist die Grundbedingung, P ( x ) = 1 , und daher kann der Nenner weggelassen werden. Somit ist P ( k | x ) = P ( k ) ≤ P ( x | k ) .xP(x)=1P(k|x)=P(k)∗P(x|k)
ist eine vor (Präanalytische) Wahrscheinlichkeitdass die native Klasse für x IS k ; P ( k ) wird vom Benutzer angegeben. Normalerweise erhalten alle Klassen standardmäßig denWert P ( k ) = 1 / number_of_classes. Um zu berechnen P ( k | x ) , dh posterior (post-analytisch) Wahrscheinlichkeitdass die native Klasse für x heißt k , sollte man wissen , P ( x | k ) .P(k)xkP(k)P(k)P(k|x)xkP(x|k)
- Wahrscheinlichkeitan sich- kann nicht gefunden werden, denn Diskriminanten, das Hauptproblem der LDA, sind kontinuierliche, nicht diskrete Variablen. Die Größe, diein diesem Fall P ( x | k ) ausdrücktund proportional dazu ist, ist dieWahrscheinlichkeitsdichte(PDF-Funktion). Hierfür müssen wir PDF für Punkt x in Klasse k , P D F ( x | k ) , in p- dimensionaler Normalverteilung berechnen, die durch Werte von p gebildet wirdP(x|k)P(x|k)xkPDF(x|k)ppDiskriminanten. [Siehe Wikipedia Multivariate Normalverteilung]
PDF(x|k)=e−d/2(2π)p/2|S|−−−√)
wo - Quadrat Mahalanobis - Abstand [Siehe Wikipedia Mahalanobis - Abstand] im Raum der Diskriminanten von Punkt x zu einem Klassenschwerpunkt; S - Kovarianzmatrix zwischen den in dieser Klasse beobachteten Diskriminanten .dxS
Berechnen Sie auf diese Weise für jede der Klassen. P ( k ) * P D F ( x | k ) für den Punkt x und Klasse k ausdrücken die gesuchten für P ( k ) * P ( x | k ) für uns. Aber mit der oben Reserve , dass PDF ist nicht per se Wahrscheinlichkeit, nur proportional zu ihr, sollten wir normalisieren P ( k ) * P DPDF(x|k)P(k)∗PDF(x|k)xkP(k)∗P(x|k) , dividiert durch die Summe von P ( k ) ∗ P D F ( x | k ) s über alle Klassen. Wenn es zum Beispiel insgesamt 3 Klassen gibt, k , l , m , dannP(k)∗PDF(x|k)P(k)∗PDF(x|k)klm
P(k|x)=P(k)∗PDF(x|k)/[P(k)∗PDF(x|k)+P(l)∗PDF(x|l)+P(m)∗PDF(x|m)]
Punkt wird von der LDA der Klasse zugeordnet, für die P ( k | x ) am höchsten ist.xP(k|x)
Hinweis. Dies war der allgemeine Ansatz. Viele LDA Programme standardmäßig Verwendung gepoolt innerhalb Klasse Matrix für alle Klassen in der Formel für PDF oben. In diesem Fall vereinfacht sich die Formel erheblich, da ein solches S in LDA eine Identitätsmatrix ist (siehe die untere Fußnote hier ) und daher | S | = 1 und d Umdrehungen in quadrierten euklidischen Abstand ( Zur Erinnerung: die gepoolte within-Klasse S , sprechen wir über Kovarianzen zwischen den Diskriminanten ist, - nicht zwischen den Eingangsvariablen, die in der Regel als Matrix bezeichnet wird , S w ).SS|S|=1dSSw
Zusatz . Bevor der obige Bayes- Regelansatz zur Klassifizierung in LDA eingeführt wurde, schlug Fisher, LDA-Pionier, die Berechnung der jetzt so genannten linearen Klassifizierungsfunktionen von Fisher vor , um Punkte in LDA zu klassifizieren. Für Punkt die Funktionsbewertung der Zugehörigkeit zur Klasse k die Linearkombination b k v 1 V 1 x + b k v 2 V 2 x + . . . + C o n s t k , wobei V 1 ,xkbkv1V1x+bkv2V2x+...+Constk sind die Prädiktorvariablen in der Analyse.V1,V2,...Vp
Koeffizienten , g die Anzahl der Klassen ist , und s v w das Element innerhalb der Klasse gepoolt wobei Streumatrix von p V -Variablen.bkv=(n−g)∑pwsvwV¯kwgsvwp V
.Constk=log(P(k))−(∑pvbkvV¯kv)/2
Punkt wird der Klasse zugewiesen, deren Punktzahl am höchsten ist. Die Klassifizierungsergebnisse dieser Fisher-Methode (die die Extraktion von Diskriminanten umgeht, die an der komplexen Zerlegung beteiligt sind) sind nur dann mit denen der Bayes-Methode identisch, wenn die gepoolte Kovarianzmatrix innerhalb der Klasse mit der Bayes-Methode auf Basis von Diskriminanten verwendet wird (siehe "Anmerkung"). oben) und alle Diskriminanten werden bei der Klassifizierung verwendet. Die Bayes-Methode ist allgemeiner, da sie auch die Verwendung separater Matrizen innerhalb der Klasse ermöglicht .x