Warum sollte man sich mit niedrigen Annäherungswerten beschäftigen?


20

Wenn Sie eine Matrix mit n Zeilen und m Spalten haben, können Sie SVD oder andere Methoden verwenden, um eine niedrigrangige Approximation der angegebenen Matrix zu berechnen .

Die Annäherung mit niedrigem Rang wird jedoch immer noch n Zeilen und m Spalten haben. Wie können Näherungen mit niedrigem Rang für das maschinelle Lernen und die Verarbeitung natürlicher Sprachen nützlich sein, wenn Sie die gleiche Anzahl von Funktionen haben?


2
Sie haben normalerweise spärliche Darstellungen - für eine Annäherung an einen niedrigen Rang müssen Sie nicht Zahlen speichern . Beispielsweise erfordert eine Annäherung an Rang 1 n + m Zahlen. mnn+m
Wahrscheinlichkeitslogik

Antworten:


16

Eine niedrige rank Approximation X von X kann in eine Matrix Quadratwurzel zerlegt werden G = U r λ 1X^Xwo die Eigenzersetzung vonXistUλUT, wodurch die Anzahl der Merkmalereduzieren, die durch dargestellt werden kannGbasierend auf der Rang-r Näherung alsX=GGT. Es ist zu beachten, dass der Indexr die Anzahl der in der Approximation verwendeten Eigenvektoren und Eigenwerte darstellt. Daher wird die Anzahl der Features zur Darstellung der Daten reduziert. In einigen Beispielen werden Annäherungen mit niedrigem Rang als auf Basis oder latenter Variablen (Wörterbuch) basierende Erweiterungen der Originaldaten unter besonderen Bedingungen wie Orthogonalität, Nicht-Negativität (nicht-negative Matrixfaktorisierung) usw. betrachtet.G=Urλr12XUλUTGX^=GGTr


5

Der Punkt der Näherung mit niedrigem Rang dient nicht unbedingt nur der Dimensionsreduktion.

Die Idee ist, dass basierend auf Domänenwissen die Daten / Einträge der Matrix die Matrix auf irgendeine Weise auf einen niedrigen Rang bringen. Dies ist jedoch im Idealfall der Fall, wenn die Einträge nicht durch Rauschen, Verfälschung, fehlende Werte usw. beeinträchtigt werden. Die beobachtete Matrix hat normalerweise einen viel höheren Rang.

Eine Annäherung mit niedrigem Rang ist somit ein Weg, um das "Original" (die "ideale" Matrix, bevor es durch Rauschen usw. durcheinander gebracht wurde) wiederherzustellen. mit der aktuellen Matrix und ist niederrangig, so dass es als eine Annäherung an die ideale Matrix verwendet werden kann. Nachdem wir diese Matrix wiederhergestellt haben, können wir sie als Ersatz für die verrauschte Version verwenden und hoffentlich bessere Ergebnisse erzielen.


4

Zwei weitere Gründe, die bisher nicht genannt wurden:

  1. Reduzierung der Kolinearität. Ich glaube, dass die meisten dieser Techniken die Kolinearität beseitigen, was für die nachfolgende Verarbeitung hilfreich sein kann.

  2. Unsere Vorstellungen sind von geringem Rang, daher kann es hilfreich sein, Beziehungen von geringem Rang zu untersuchen.


3

Sobald Sie den Rang der Annäherung festgelegt haben (sagen wir r<m), behalten Sie nur die r Basisvektoren für die zukünftige Verwendung (z. B. als Prädiktoren für ein Regressions- oder Klassifizierungsproblem) und nicht das Original m.


1

Gemäß "Modern Multivariate Statistical Techniques (Izenman)" umfasst die reduzierte Rangregression mehrere interessante Methoden als Sonderfälle, einschließlich PCA, Faktoranalyse, kanonische Variations- und Korrelationsanalyse, LDA und Korrespondenzanalyse

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.