Ich verstehe nicht, warum die Reduzierung der Dimension wichtig ist. Was ist der Vorteil, wenn einige Daten erfasst und ihre Dimension reduziert werden?
Ich verstehe nicht, warum die Reduzierung der Dimension wichtig ist. Was ist der Vorteil, wenn einige Daten erfasst und ihre Dimension reduziert werden?
Antworten:
Die Singularwertzerlegung (SVD) ist nicht gleichbedeutend mit der Verringerung der Dimensionalität der Daten. Es ist eine Methode, eine Matrix in andere Matrizen zu zerlegen, die viele wunderbare Eigenschaften hat, auf die ich hier nicht näher eingehen werde. Weitere Informationen zu SVD finden Sie auf der Wikipedia-Seite .
Das Reduzieren der Dimensionalität Ihrer Daten ist manchmal sehr nützlich. Es kann sein, dass Sie viel mehr Variablen als Beobachtungen haben; Dies ist in der genomischen Arbeit nicht ungewöhnlich. Es kann sein, dass wir mehrere Variablen haben, die sehr stark korreliert sind, z. B. wenn sie stark von einer kleinen Anzahl zugrunde liegender Faktoren beeinflusst werden, und wir möchten eine gewisse Annäherung an die zugrunde liegenden Faktoren wiederherstellen. Dimensionalitätsreduzierende Techniken wie Hauptkomponentenanalyse, mehrdimensionale Skalierung und kanonische Variablenanalyse geben uns Einblicke in die Beziehungen zwischen Beobachtungen und / oder Variablen, die wir möglicherweise nicht auf andere Weise erhalten können.
Ein konkretes Beispiel: Vor einigen Jahren habe ich eine Umfrage zur Mitarbeiterzufriedenheit analysiert, die über 100 Fragen enthielt. Nun, kein Manager wird jemals in der Lage sein, mehr als 100 Fragen im Wert von Antworten zu betrachten, sogar zusammengefasst, und mehr als nur zu erraten, was das alles bedeutet, denn wer kann sagen, wie die Antworten zusammenhängen und was sie wirklich antreibt ? Ich führte eine Faktorenanalyse der Daten durch, für die ich über 10.000 Beobachtungen hatte, und fand fünf sehr klare und leicht interpretierbare Faktoren, mit denen managerspezifische Bewertungen (eine für jeden Faktor) entwickelt werden konnten, die die Gesamtheit der Daten zusammenfassen die 100+ Fragen Umfrage. Eine viel bessere Lösung als der Excel-Tabellenauszug, mit dem die Ergebnisse zuvor gemeldet wurden!
In Bezug auf Ihren zweiten Punkt der Frage können die Vorteile der Dimensionsreduzierung für einen Datensatz sein:
Abgesehen von PCA haben SVDs viele Anwendungen in der Signalverarbeitung, NLP und vielen mehr
Schauen Sie sich meine Antwort an. Die Singularwertzerlegung ist eine Schlüsselkomponente der Hauptkomponentenanalyse , die eine sehr nützliche und sehr leistungsfähige Datenanalysetechnik darstellt.
Es wird häufig in Gesichtserkennungsalgorithmen verwendet, und ich verwende es häufig in meiner täglichen Arbeit als Hedgefonds-Analyst.