Lineare Diskriminanzanalyse und nicht normalverteilte Daten

Wenn ich das richtig verstehe, setzt eine lineare Diskriminanzanalyse (LDA) normalverteilte Daten, unabhängige Merkmale und identische Kovarianzen für jede Klasse für das Optimalitätskriterium voraus.

Ist es nicht schon eine Verletzung, da der Mittelwert und die Varianz aus den Trainingsdaten geschätzt werden?

Ich fand ein Zitat in einem Artikel (Li, Tao, Shenghuo Zhu und Mitsunori Ogihara „ Mit Diskriminanzanalyse für Multi-Klasse Klassifizierung: Eine experimentelle Untersuchung .“. Wissen und Information 10 Systems, no 4 (2006): 453-72 .)

"Die lineare Diskriminanzanalyse erzielt häufig gute Leistungen bei den Aufgaben der Gesichts- und Objekterkennung, obwohl die Annahmen einer gemeinsamen Kovarianzmatrix zwischen Gruppen und Normalität häufig verletzt werden (Duda, et al., 2001)."

- Leider konnte ich den entsprechenden Abschnitt in Duda et. al. "Musterklassifikation".

Irgendwelche Erfahrungen oder Gedanken zur Verwendung von LDA (im Vergleich zu regulärem LDA oder QDA) für nicht normale Daten im Zusammenhang mit der Reduzierung der Dimensionalität?

dimensionality-reduction normality-assumption discriminant-analysis

— Amöbe
quelle

Sie fragen speziell nach LDA mit mehreren Klassen. Was lässt Sie denken, dass sich LDA mit mehreren Klassen und LDA mit zwei Klassen in dieser Hinsicht unterschiedlich verhalten (unter Verstoß gegen Normalität und / oder gemeinsame Kovarianzannahmen)?

— Amöbe

Wenn mir hier etwas nicht fehlt, sollte es auf den gleichen Annahmen beruhen, oder? Ich habe in Raos Artikel keine Annahmen bezüglich der Normalität gesehen, aber ich habe die Frage verallgemeinert

Hier ist, was Hastie et al. Ich muss dazu (im Kontext der Zwei-Klassen-LDA) in Die Elemente des statistischen Lernens, Abschnitt 4.3, sagen:

Da diese Ableitung der LDA-Richtung über kleinste Quadrate keine Gaußsche Annahme für die Merkmale verwendet, geht ihre Anwendbarkeit über den Bereich der Gaußschen Daten hinaus. Die Ableitung des in (4.11) angegebenen bestimmten Abschnitts oder Schnittpunkts erfordert jedoch Gaußsche Daten. Daher ist es sinnvoll, stattdessen den Schnittpunkt zu wählen, der den Trainingsfehler für einen bestimmten Datensatz empirisch minimiert. Wir haben festgestellt, dass dies in der Praxis gut funktioniert, haben es aber in der Literatur nicht erwähnt.

~~Ich verstehe die Ableitung über die kleinsten Quadrate, auf die sie sich beziehen, nicht vollständig, aber im Allgemeinen~~ [Update: Ich werde sie irgendwann kurz zusammenfassen] halte ich diesen Absatz für sinnvoll: Auch wenn die Daten sehr nicht Gauß oder Klasse sind Kovarianzen sind sehr unterschiedlich, die LDA-Achse wird wahrscheinlich immer noch eine gewisse Diskriminierbarkeit ergeben. Der von LDA angegebene Schnittpunkt auf dieser Achse (zwei Klassen trennend) kann jedoch vollständig deaktiviert sein. Eine separate Optimierung kann die Klassifizierung erheblich verbessern.

Beachten Sie, dass sich dies nur auf die Klassifizierungsleistung bezieht. Wenn Sie nur nach einer Reduzierung der Dimensionalität suchen, ist die LDA-Achse alles, was Sie brauchen. Ich vermute also, dass LDA zur Reduzierung der Dimensionalität oft gute Arbeit leistet, selbst wenn die Annahmen verletzt werden.

In Bezug auf rLDA und QDA: rLDA muss verwendet werden, wenn nicht genügend Datenpunkte vorhanden sind, um die Kovarianz innerhalb der Klasse zuverlässig abzuschätzen (und ist in diesem Fall von entscheidender Bedeutung). Und QDA ist eine nichtlineare Methode, daher bin ich mir nicht sicher, wie ich sie zur Reduzierung der Dimensionalität verwenden soll.

— Amöbe
quelle

Nochmals vielen Dank für dieses wertvolle und gründliche Feedback! Ich werde die Frage für ein paar Tage offen lassen, um weitere Meinungen zu sammeln

Einige Tage sind vergangen :)

— Amöbe

Kann ich das im Zusammenhang mit der Dimensionsreduktion mit LDA / FDA wissen? LDA/FDA can start with n dimensions and end with k dimensions, where k < n. Ist das korrekt? Oder der Ausgang istc-1 where c is the number of classes and the dimensionality of the data is n with n>c.

— aan