Ich habe einen Datensatz mit ~ 1M Zeilen und ~ 500K spärlichen Funktionen. Ich möchte die Dimensionalität auf einen Wert in der Größenordnung von 1K-5K-dichten Merkmalen reduzieren.
sklearn.decomposition.PCA
funktioniert nicht mit spärlichen Daten, und ich habe versucht, sie zu verwenden sklearn.decomposition.TruncatedSVD
, erhalte aber ziemlich schnell einen Speicherfehler. Was sind meine Optionen für eine effiziente Dimensionsreduzierung auf dieser Skala?