Frage:
Gibt es allgemeine Richtlinien in Bezug auf die Eingabedateneigenschaften, anhand derer zwischen der Anwendung von PCA und LSA / LSI entschieden werden kann?
Kurze Zusammenfassung von PCA vs. LSA / LSI:
Die Hauptkomponentenanalyse (PCA) und die latente semantische Analyse (LSA) oder die latente semantische Indexierung (LSI) sind insofern ähnlich, als sie alle im Wesentlichen auf der Anwendung der Singular Value Decomposition (SVD) auf eine Matrix beruhen.
LSA und LSI sind, soweit ich das beurteilen kann, dasselbe. LSA unterscheidet sich von PCA nicht grundlegend, sondern in der Art und Weise, wie die Matrixeinträge vor dem Anwenden der SVD vorverarbeitet werden.
In LSA umfasst der Vorverarbeitungsschritt typischerweise das Normalisieren einer Zählmatrix, in der Spalten 'Dokumenten' und Zeilen einer Art Wort entsprechen. Einträge können als eine Art (normalisierte) Anzahl von Wörtern für Dokumente angesehen werden.
In PCA beinhaltet der Vorverarbeitungsschritt das Berechnen der Kovarianzmatrix aus der ursprünglichen Matrix. Die ursprüngliche Matrix ist konzeptionell „allgemeiner“ als im Fall von LSA. Wenn es um PCA geht, beziehen sich die Spalten normalerweise auf generische Stichprobenvektoren, und die Zeilen beziehen sich auf einzelne Variablen, die gemessen werden. Die Kovarianzmatrix ist per Definition quadratisch und symetrisch, und tatsächlich ist es nicht erforderlich, die SVD anzuwenden, da die Kovarianzmatrix durch Diagonalisierung zerlegt werden kann. Insbesondere ist die PCA-Matrix mit ziemlicher Sicherheit dichter als die LSA / LSI-Variante - Null-Einträge treten nur dann auf, wenn die Kovarianz zwischen Variablen Null ist, dh wenn die Variablen unabhängig sind.
Schließlich ist ein weiterer beschreibender Punkt, der ziemlich häufig gemacht wird, um die beiden zu unterscheiden, der folgende
LSA sucht nach dem besten linearen Unterraum in der Frobenius-Norm, während PCA nach dem besten affinen linearen Unterraum strebt.
In jedem Fall wurden die Unterschiede und Ähnlichkeiten dieser Techniken in verschiedenen Foren im Internet heftig diskutiert, und es gibt eindeutig einige wesentliche Unterschiede, und diese beiden Techniken führen eindeutig zu unterschiedlichen Ergebnissen.
Daher wiederhole ich meine Frage: Gibt es allgemeine Richtlinien bezüglich der Eingabedateneigenschaften, anhand derer zwischen der Anwendung von PCA und LSA / LSI entschieden werden kann? Wenn ich etwas habe, das einer Term-Document-Matrix ähnelt, ist LSA / LSI immer die beste Wahl? Könnten Sie in einigen Fällen bessere Ergebnisse erwarten, indem Sie die Term / Doc-Matrix für LSA / LSI vorbereiten und dann PCA auf das Ergebnis anwenden, anstatt die SVD direkt anzuwenden?