Lineare Diskriminanzanalyse und Bayes-Regel: Klassifikation

Welche Beziehung besteht zwischen der linearen Diskriminanzanalyse und der Bayes-Regel? Ich verstehe, dass LDA bei der Klassifizierung verwendet wird, indem versucht wird, das Verhältnis zwischen Gruppenvarianz und Gruppenvarianz zu minimieren, aber ich weiß nicht, wie Bayes-Regeln darin verwendet werden.

classification discriminant-analysis bayes

— zca0
quelle

Diskriminanzfunktionen werden extrahiert, um das Verhältnis zwischen Gruppenvariation und Gruppenvariation zu maximieren. Es hat nichts mit der Klassifizierung zu tun, die die zweite und eigenständige Stufe der LDA darstellt.

— TTNPHNS

Die Einteilung in LDA erfolgt wie folgt (Bayes-Regelansatz). [Über die Extraktion von Diskriminanten könnte man hier schauen .]

Der gesucht für Wahrscheinlichkeit nach Bayes - Theorem, dass wir mit der Klasse zu tun haben , während zur Zeit Punkt beobachtet ist , wo $k$ $x$ $P(k|x) = P(k)*P(x|k) / P(x)$

- unbedingte (Hintergrund-) Wahrscheinlichkeit der Klasse ; - unbedingte (Hintergrund-) Wahrscheinlichkeit von Punkt ; - Wahrscheinlichkeit des Vorhandenseins von Punkt in Klasse , wenn die behandelte Klasse . $P(k)$ $k$ $P(x)$ $x$ $P(x|k)$ $x$ $k$ $k$

"Beobachten des aktuellen Punkts " ist die Grundbedingung, , und daher kann der Nenner weggelassen werden. Somit ist . $x$ $P(x)=1$ $P(k|x) = P(k)*P(x|k)$

ist eine vor (Präanalytische) Wahrscheinlichkeitdass die native Klasse für IS ; wird vom Benutzer angegeben. Normalerweise erhalten alle Klassen standardmäßig denWert = 1 / number_of_classes. Um zu berechnen , dh posterior (post-analytisch) Wahrscheinlichkeitdass die native Klasse für heißt , sollte man wissen . $P(k)$ $x$ $k$ $P(k)$ $P(k)$ $P(k|x)$ $x$ $k$ $P(x|k)$

- Wahrscheinlichkeitan sich- kann nicht gefunden werden, denn Diskriminanten, das Hauptproblem der LDA, sind kontinuierliche, nicht diskrete Variablen. Die Größe, diein diesem Fall ausdrücktund proportional dazu ist, ist dieWahrscheinlichkeitsdichte(PDF-Funktion). Hierfür müssen wir PDF für Punkt in Klasse , , in dimensionaler Normalverteilung berechnen, die durch Werte von $P(x|k)$ $P(x|k)$ $x$ $k$ $PDF(x|k)$ $p$ $p$ Diskriminanten. [Siehe Wikipedia Multivariate Normalverteilung]

P D F (x | k) = \frac{e^{- d / 2}}{(2 π)^{p / 2} \sqrt{| S |})}

$PDF(x|k) = \frac {e^{-d/2}} {(2\pi)^{p/2}\sqrt{\bf |S|})}$

wo - Quadrat Mahalanobis - Abstand [Siehe Wikipedia Mahalanobis - Abstand] im Raum der Diskriminanten von Punkt zu einem Klassenschwerpunkt; - Kovarianzmatrix zwischen den in dieser Klasse beobachteten Diskriminanten . $d$ $x$ $\bf S$

Berechnen Sie auf diese Weise für jede der Klassen. für den Punkt und Klasse ausdrücken die gesuchten für für uns. Aber mit der oben Reserve , dass PDF ist nicht per se Wahrscheinlichkeit, nur proportional zu ihr, sollten wir normalisieren $PDF(x|k)$ $P(k)*PDF(x|k)$ $x$ $k$ $P(k)*P(x|k)$ , dividiert durch die Summe von s über alle Klassen. Wenn es zum Beispiel insgesamt 3 Klassen gibt, , , , dann $P(k)*PDF(x|k)$ $P(k)*PDF(x|k)$ $k$ $l$ $m$

Punkt wird von der LDA der Klasse zugeordnet, für die am höchsten ist. $x$ $P(k|x)$

Hinweis. Dies war der allgemeine Ansatz. Viele LDA Programme standardmäßig Verwendung gepoolt innerhalb Klasse Matrix für alle Klassen in der Formel für PDF oben. In diesem Fall vereinfacht sich die Formel erheblich, da ein solches in LDA eine Identitätsmatrix ist (siehe die untere Fußnote hier ) und daher und Umdrehungen in quadrierten euklidischen Abstand ( Zur Erinnerung: die gepoolte within-Klasse , sprechen wir über Kovarianzen zwischen den Diskriminanten ist, - nicht zwischen den Eingangsvariablen, die in der Regel als Matrix bezeichnet wird , ). $\bf S$ $\bf S$ $\bf |S|=1$ $d$ $\bf S$ $\bf S_w$

Zusatz . Bevor der obige Bayes- Regelansatz zur Klassifizierung in LDA eingeführt wurde, schlug Fisher, LDA-Pionier, die Berechnung der jetzt so genannten linearen Klassifizierungsfunktionen von Fisher vor , um Punkte in LDA zu klassifizieren. Für Punkt die Funktionsbewertung der Zugehörigkeit zur Klasse die Linearkombination , wobei $x$ $k$ $b_{kv1}V1_x+b_{kv2}V2_x+...+Const_k$ sind die Prädiktorvariablen in der Analyse. $V1, V2,...V_p$

Koeffizienten , die Anzahl der Klassen ist , und das Element innerhalb der Klasse gepoolt wobei Streumatrix von -Variablen. $b_{kv}=(n-g)\sum_w^p{s_{vw}\bar{V}_{kw}}$ $g$ $s_{vw}$ $p$ $V$

. $Const_k=\log(P(k))-(\sum_v^p{b_{kv}\bar{V}_{kv}})/2$

Punkt wird der Klasse zugewiesen, deren Punktzahl am höchsten ist. Die Klassifizierungsergebnisse dieser Fisher-Methode (die die Extraktion von Diskriminanten umgeht, die an der komplexen Zerlegung beteiligt sind) sind nur dann mit denen der Bayes-Methode identisch, wenn die gepoolte Kovarianzmatrix innerhalb der Klasse mit der Bayes-Methode auf Basis von Diskriminanten verwendet wird (siehe "Anmerkung"). oben) und alle Diskriminanten werden bei der Klassifizierung verwendet. Die Bayes-Methode ist allgemeiner, da sie auch die Verwendung separater Matrizen innerhalb der Klasse ermöglicht . $x$

— ttnphns
quelle

This is Bayesian approach right? What is the Fisher's approach for this?

— zca0

Added to the answer upon your request

— ttnphns

+1 zur Unterscheidung zwischen dem Bayes- und dem Fisher-Ansatz der LDA. Ich bin ein Neuling in LDA, und die Bücher, die ich lese, lehren mich LDA in Bayes 'Ansatz, der

in Klasse

mit dem höchsten

klassifiziert , sodass ich das gesamte

berechnen muss

für jede Klasse

, richtig? Nach dem Ansatz von Fisher muss ich nur die Diskriminanten und ihre entsprechenden Koefs herausfinden und nicht für jede Klasse den hinteren Teil berechnen, oder?

X

$X$

K

$K$

p (K | X)

$p(K|X)$

p (K | X)

$p(K|X)$

K

$K$

— Avocado

And I think the Bayes' approach is more understandable, and why do we need to use the Fisher's approach?

— avocado

We don't need. Just for historical matter.

— ttnphns

Assume equal weights for the two error types in a two class problem. Suppose the two classes have a multivariate class conditional density of the classification variables. Then for any observed vector $x$ and class conditional densities $f_1(x)$ and $f_2(x)$ the Bayes rule will classify $x$ as belonging to group 1 if $f_1(x) \geq f_2(x)$ and as class 2 otherwise. The Bayes rule turns out to be a linear discriminant classifier if $f_1$ and $f_2$ are both multivariate normal densities with the same covariance matrix. Of course in order to be able to usefully discriminate the mean vectors must be different. A nice presentation of this can be found in Duda and Hart Pattern Classification and Scene Analysis 1973 (the book has recently been revised but I like particularly the presentation in the original edition).

— Michael R. Chernick
quelle