Die scheinbare Uneinigkeit der Quellen über die lineare, quadratische und Fisher-Diskriminanzanalyse


10

Ich studiere Diskriminanzanalyse, aber es fällt mir schwer, verschiedene Erklärungen miteinander in Einklang zu bringen. Ich glaube, ich muss etwas vermissen, weil ich noch nie zuvor auf diese (scheinbare) Diskrepanz gestoßen bin. Die Anzahl der Fragen zur Diskriminanzanalyse auf dieser Website scheint jedoch ein Beweis für ihre Komplexität zu sein.

LDA und QDA für mehrere Klassen

Mein Hauptlehrbuch ist Johnson & Wichern Applied Multivariate Statistical Analysis (AMSA) und die darauf basierenden Notizen meines Lehrers. Ich werde die Zwei-Gruppen-Einstellung ignorieren, da ich glaube, dass die vereinfachten Formeln in dieser Einstellung zumindest einen Teil der Verwirrung verursachen. Nach dieser Quelle werden LDA und QDA als parametrische Erweiterung (unter der Annahme einer multivariaten Normalität) einer Klassifizierungsregel definiert, die auf den erwarteten Kosten der Fehlklassifizierung (ECM) basiert. Das ECM summiert sich über die bedingten erwarteten Kosten für die Klassifizierung einer neuen Beobachtung x in eine beliebige Gruppe (einschließlich Fehlklassifizierungskosten und vorheriger Wahrscheinlichkeiten), und wir wählen Klassifizierungsbereiche aus, die dies minimieren. wobei

ECM=i=1groupspi[k=1; ikgroupsP(k|i)c(k|i)]
P(k|i)=P(classifying item as group k | item is group i)=Rkfi(x)dx , fi(x) ist die Bevölkerungsdichte, Rk ist die Menge der Beobachtungen in Gruppe k, c sind die Kosten und pi sind die vorherigen Wahrscheinlichkeiten. Neue Beobachtungen können dann der Gruppe zugeordnet werden, für die der innere Term am kleinsten ist oder für die der ausgelassene Teil des inneren Terms pkfk(x) am größten ist

Angeblich entspricht diese Klassifizierungsregel "einer, die die posterioren Wahrscheinlichkeiten maximiert" (sic AMSA), von der ich nur annehmen kann, dass sie der von mir erwähnte Bayes-Ansatz ist. Ist das richtig? Und ist ECM eine ältere Methode, weil ich sie nirgendwo anders gesehen habe?

Für normale Populationen vereinfacht sich diese Regel auf die quadratische Diskriminanzbewertung: .

diQ(x)=12log(Σi)12(xμi)TΣi1(xμi)+log(pi)

Dies scheint äquivalent zu den Elementen der Statistischen Learning (ESL) Formel 4.12 auf Seite 110, obwohl sie es als eine quadratische Diskriminanzanalyse beschreiben Funktion eher als eine Partitur . Darüber hinaus kommen sie hier durch das logarithmische Verhältnis multivariater Dichten an (4.9). Ist dies noch ein anderer Name für Bayes 'Ansatz?

Wenn wir gleich Kovarianz annehmen vereinfacht die Formel noch weiter zu der linearen Diskriminanzfunktion Score .

di(x)=μiTΣ1x12μiTΣ1μi+log(pi)

Diese Formel unterscheidet sich von ESL (4.10), wo der erste Term umgekehrt ist: . Die ESL-Version ist auch die unter Statistisches Lernen in R aufgeführte . Darüber hinaus wird in SAS Ausgang in AMSA präsentiert eine lineare Diskriminanten - Funktion beschrieben wird , von einer konstanten bestehend und ein Koeffizient Vektor , scheinbar konsistent mit der ESL-Version.xTΣ1μk0.5X¯jTCOV1X¯j+ln priorjCOV1X¯j

Was könnte der Grund für diese Diskrepanz sein?

Diskriminanten und Fischers Methode

Hinweis: Wenn diese Frage als zu groß eingestuft wird, entferne ich diesen Abschnitt und öffne eine neue Frage, die jedoch auf dem vorherigen Abschnitt aufbaut. Entschuldigung für die Textwand, ich habe mein Bestes versucht, sie etwas zu strukturieren, aber ich bin sicher, dass meine Verwirrung über diese Methode zu einigen merkwürdigen logischen Sprüngen geführt hat.

Das AMSA-Buch beschreibt die Fischermethode auch für mehrere Gruppen. Allerdings ttnphns hat darauf hingewiesen , mehrere Male , dass die FDA ist einfach LDA mit zwei Gruppen. Was ist diese Multiklassen-FDA dann? Vielleicht kann die FDA mehrere Bedeutungen haben?

AMSA beschreibt Fischers Diskriminanten als die Eigenvektoren von , die das Verhältnis maximieren . Die linearen Kombinationen sind dann die Probendiskriminanten (von denen es ). Zur Klassifizierung wählen wir die Gruppe k mit dem kleinsten Wert für wobei r die Anzahl der Diskriminanten ist, die wir verwenden möchten. Wenn wir alle Diskriminanten verwenden, entspricht diese Regel der linearen Diskriminanzfunktion.W1Ba^TBa^a^TWa^e^ixmin(g1,p)j=1r[e^jT(xx¯k)]2

Viele Erklärungen zu LDA scheinen die Methodik zu beschreiben, die im AMSA-Buch als FDA bezeichnet wird, dh ausgehend von diesem Aspekt zwischen / innerhalb der Variabilität. Was ist dann mit FDA gemeint, wenn nicht die Zersetzung der BW-Matrizen?

Dies ist das erste Mal, dass das Lehrbuch den Aspekt der Dimensionsreduzierung der Diskriminanzanalyse erwähnt, während mehrere Antworten auf dieser Site den zweistufigen Charakter dieser Technik betonen, dies jedoch in einer Zwei-Gruppen-Einstellung nicht klar ist, da es nur 1 gibt diskriminant. Angesichts der obigen Formeln für Mehrklassen-LDA und QDA ist mir immer noch nicht klar, wo die Diskriminanten auftauchen.

Dieser Kommentar hat mich besonders verwirrt und festgestellt, dass die Bayes-Klassifizierung im Wesentlichen für die ursprünglichen Variablen durchgeführt werden kann. Aber wenn FDA und LDA mathematisch äquivalent sind, wie im Buch und hier , sollte die Dimensionsreduktion nicht den Funktionen inhärent sein ? Ich glaube, das ist es, worauf sich dieser letzte Link bezieht, aber ich bin mir nicht ganz sicher.di

In den Kursnotizen meines Lehrers wird weiter erklärt, dass die FDA im Wesentlichen eine Form der kanonischen Korrelationsanalyse ist. Ich habe nur eine andere Quelle gefunden, die über diesen Aspekt spricht, aber es scheint wieder einmal eng mit dem Fisher-Ansatz verbunden zu sein, das Zwischen- und das Innerhalb der Variabilität zu zerlegen. SAS präsentiert in seinem LDA / QDA-Verfahren (DISCRIM) ein Ergebnis, das offenbar mit der Fisher-Methode zusammenhängt ( https://stats.stackexchange.com/a/105116/62518 ). Die FDA-Option (CANDISC) von SAS führt jedoch im Wesentlichen eine kanonische Korrelation durch, ohne diese sogenannten Fisher-Klassifizierungskoeffizienten darzustellen. Es enthält rohe kanonische Koeffizienten, von denen ich glaube, dass sie den von lda (MASS) erhaltenen W-1B-Eigenvektoren von R entsprechen (https://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_candisc_sect019.htm ). Die Klassifizierungskoeffizienten scheinen aus der Diskriminanzfunktion erhalten zu werden, die ich in meinem LDA- und QDA-Abschnitt beschrieben habe (da es 1 Funktion pro Population gibt und wir die größte auswählen).

Ich wäre dankbar für alle Klarstellungen oder Verweise auf Quellen, die mir helfen könnten, den Wald durch die Bäume zu sehen. Die Hauptursache für meine Verwirrung scheint zu sein, dass verschiedene Lehrbücher Methoden mit unterschiedlichen Namen aufrufen oder eine geringfügige Variation der Mathematik darstellen, ohne die anderen Möglichkeiten anzuerkennen, obwohl ich denke, dass dies angesichts des Alters des AMSA-Buches keine Überraschung sein sollte .


If we use all the discriminants this rule would be equivalent to the linear discriminant functionUnklar. "Diskriminanz" und "Diskriminanzfunktion" sind synonym. Sie können alle Diskriminanten oder nur wenige der stärksten / signifikantesten verwenden. Ich habe mich nicht dem AMSA-Buch zugewandt, aber ich vermute, dass FDA = LDA für die Autoren. Eigentlich denke ich persönlich, dass "Fisher LDA" ein überschüssiger, unnötiger Begriff wäre.
ttnphns

In "Ergänzung" zu dieser Antwort über die LDA-Klassifizierung stelle ich fest, dass die Berechnung der "linearen Fisher-Klassifizierungsfunktionen" direkt aus den Variablen äquivalent dazu ist, Extract the discriminants -> classify by them all (using Bayes approach, as usual)wenn wie üblich standardmäßig die gepoolte Kovarianzmatrix der Diskriminanten innerhalb der Klasse in der Klassifizierung verwendet wird.
ttnphns

Tatsächlich sind "Fisher's lineare Klassifizierungsfunktionen" eine Möglichkeit, LDA durchzuführen, ohne eine Eigenzerlegung von W^-1Bund dann "Bayes" durchzuführen . Es ist äquivalent, aber weniger flexibel (Sie können nicht nur einige der Diskriminanten auswählen, Sie können bei der Klassifizierung keine separaten Kovarianzmatrizen verwenden usw.).
ttnphns

Ich verdaue immer noch Ihre Antwort und Links (danke), aber: 1) Hier ist ein Auszug aus AMSA, in dem "Diskriminanten" und "Diskriminanzwerte" erläutert werden. I.imgur.com/7W7vc8u.jpg?1 Ich habe die Begriffe verwendet "Score" und "Funktion" austauschbar. 3) Im selben Auszug können Sie sehen, dass sich das AMSA-Buch auf die Eigenzusammensetzung bezieht, um Fisher-Diskriminanten zu erhalten. Die Art und Weise, wie es hier dargestellt wird, scheint flexibler zu sein als die lineare / quadratische Methode, die lediglich zu einer harten Diskriminanzfunktion / Punktzahl führt.W1B
Zenit

Zenit, für mich ist der Diskriminanzwert der Wert einer (kanonischen) Diskriminanzfunktion. Ich kann nicht so weit gehen, die von Ihnen zitierten Formeln mit dem zu vergleichen, was ich darüber weiß, wie kanonische Diskriminanten in SPSS berechnet werden . Ich empfehle Ihnen, Berechnungen durchzuführen, Ergebnisse zu vergleichen und Ihre Schlussfolgerungen zu ziehen. Ich vermute auch, dass verschiedene Texte das Label "Fisher's" unterschiedlich anwenden können.
ttnphns

Antworten:


8

Ich spreche nur einen Aspekt der Frage an und mache es intuitiv ohne Algebra.

Wenn die Klassen die gleichen Varianz-Kovarianz-Matrizen haben und sich nur durch die Verschiebung ihrer Schwerpunkte im dimensionalen Raum unterscheiden, sind sie im "Unterraum" vollständig linear trennbar . Dies ist, was LDA tut. Stellen Sie sich vor, Sie haben drei identische Ellipsoide im Raum der Variablen . Sie müssen die Informationen aus allen Variablen verwenden, um die Klassenzugehörigkeit fehlerfrei vorherzusagen. Aufgrund der Tatsache, dass es sich um gleich große und orientierte Wolken handelte, ist es jedoch möglich, sie durch eine gemeinsame Umwandlung in Kugeln mit Einheitsradius neu zu skalieren. Dann istgpq=min(g1,p)V1,V2,V3q=g1=2unabhängige Dimensionen werden ausreichen, um die Klassenzugehörigkeit so genau wie früher vorherzusagen. Diese Dimensionen werden als Diskriminanzfunktionen . Mit 3 gleich großen Punktekugeln benötigen Sie nur 2 axiale Linien und müssen die Mittelpunktskoordinaten der Kugeln kennen, um jeden Punkt richtig zuzuweisen.D1,D2

Geben Sie hier die Bildbeschreibung ein

Diskriminanten sind unkorrelierte Variablen, ihre Kovarianzmatrizen innerhalb der Klasse sind idealerweise Identitätsmatrizen (die Bälle). Diskriminanten bilden einen Unterraum des ursprünglichen Variablenraums - sie sind ihre linearen Kombinationen. Sie sind jedoch keine rotationsähnlichen (PCA-ähnlichen) Achsen: Im ursprünglichen Variablenraum sind Diskriminanten als Achsen nicht zueinander orthogonal .

Unter der Annahme der Homogenität der Varianz-Kovarianzen innerhalb der Klasse ist die Verwendung der LDA zur Klassifizierung aller vorhandenen Diskriminanten nicht schlechter als die sofortige Klassifizierung anhand der ursprünglichen Variablen. Sie müssen jedoch nicht alle Diskriminanten verwenden. Sie könnten nur zuerst am stärksten / statistisch signifikantesten von ihnen ist. Auf diese Weise verlieren Sie nur minimale Informationen für die Klassifizierung und die Fehlklassifizierung ist minimal. Aus dieser Perspektive ist LDA eine Datenreduktion ähnlich wie PCA, die nur überwacht wird.m<q

Beachten Sie, dass es unter der Annahme der Homogenität (+ multivariate Normalität) und unter der Voraussetzung, dass Sie alle Diskriminanten in der Klassifizierung verwenden möchten, möglich ist, die Extraktion der Diskriminanten selbst zu umgehen - was ein verallgemeinertes Eigenproblem beinhaltet - und die sogenannten "Fisher-Klassifizierungsfunktionen" zu berechnen. aus den Variablen direkt, um mit ihnen zu klassifizieren , mit dem entsprechenden Ergebnis. Wenn also die Klassen in ihrer Form identisch sind, könnten wir die Eingangsvariablen oder die Fisher-Funktionen oder die Diskriminanten als alle äquivalenten Sätze von "Klassifikatoren" betrachten. Diskriminanten sind jedoch in vielerlei Hinsicht bequemer. gpgq1

Da die Klassen in der Realität normalerweise keine "identischen Ellipsen" sind, ist die Klassifizierung durch die Diskriminanten etwas schlechter als bei einer Bayes-Klassifizierung durch alle ursprünglichen Variablen. In diesem Diagramm sind beispielsweise die beiden Ellipsoide nicht parallel zueinander. und man kann visuell erfassen, dass die einzelne vorhandene Diskriminante nicht ausreicht, um Punkte so genau zu klassifizieren, wie es die beiden Variablen zulassen. QDA (quadratische Diskriminanzanalyse) wäre dann eine schrittweise bessere Annäherung als LDA. Ein praktischer Ansatz auf halbem Weg zwischen LDA und QDA besteht darin, LDA-Diskriminanten zu verwenden, aber ihre beobachteten Kovarianzmatrizen für getrennte Klassen bei der Klassifizierung zu verwenden ( siehe , sieheqp) anstelle ihrer gepoolten Matrix (die die Identität ist).

(Und ja, LDA kann als eng verwandt mit MANOVA und kanonischer Korrelationsanalyse oder multivariater Regression mit reduziertem Rang angesehen werden - siehe , siehe , siehe .)


1 Eine wichtige terminologische Anmerkung. In einigen Texten können die Fisher-Klassifizierungsfunktionen als "Fisher-Diskriminanzfunktionen" bezeichnet werden, was mit den Diskriminaten verwechselt werden kann, die kanonische Diskriminanzfunktionen sind (dh erhalten in der Eigendekomposition vongqW1B). Aus Gründen der Klarheit empfehle ich, "Fisher-Klassifizierungsfunktionen" gegenüber "kanonischen Diskriminanzfunktionen" (kurz = Diskriminanten) zu sagen. Nach heutigem Verständnis ist LDA die kanonische lineare Diskriminanzanalyse. "Fisher's Diskriminant Analysis" ist zumindest meines Wissens entweder LDA mit 2 Klassen (wobei die einzelne kanonische Diskriminante zwangsläufig dieselbe ist wie die Klassifizierungsfunktionen von Fisher) oder im Großen und Ganzen die Berechnung von Fisher's Klassifizierungsfunktionen in Mehrklasseneinstellungen.


Betreff: Der Wikipedia-Artikel über LDA ( en.wikipedia.org/wiki/Linear_discriminant_analysis ) besagt, dass "die Begriffe Fisher's Linear Diskriminant und LDA häufig synonym verwendet werden, obwohl Fisher's Originalartikel [1] tatsächlich einen etwas anderen Diskriminanten beschreibt, der dies tut einige der Annahmen der LDA nicht treffen, wie normalverteilte Klassen oder Kovarianzen gleicher Klassen. " Auf dieser Grundlage scheint LDA für 2 Klassen ein Sonderfall der "FDA" zu sein, wenn die Gruppenkovarianzen "gleich" sind. @ttnphns: ist das richtig?
Laryx Decidua

@LaryxDecidua, ich bin mir in diesem Fall nicht 100% sicher, was die Terminologie betrifft, und ich habe unterschiedliche Meinungen gesehen. Ich benutze überhaupt nicht den Begriff "Fisher's DA". Aber wenn Leute fragen, antworte ich mir: "FDA ist LDA mit 2 Klassen".
ttnphns

Danke, mir der interessanteste Aspekt ist , dass „FDA“, laut Wikipedia, ist nicht übernehmen Normalität, während „LDA“ (und QDA) tun. Vielleicht "FDA ist LDA mit 2 Klassen, ohne Normalität oder Homoskedastizität".
Laryx Decidua
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.