Ich würde gerne eine Dimensionsreduktion für fast 1 Million Vektoren mit jeweils 200 Dimensionen durchführen ( doc2vec
). Ich verwende dafür die TSNE
Implementierung aus dem sklearn.manifold
Modul und das Hauptproblem ist die zeitliche Komplexität. Trotzdem method = barnes_hut
ist die Rechengeschwindigkeit immer noch gering. Irgendwann geht ihm sogar der Speicher aus.
Ich lasse es auf einem Prozessor mit 48 Kernen mit RAM 130G laufen. Gibt es eine Methode, um es parallel auszuführen oder die reichlich vorhandenen Ressourcen zu nutzen, um den Prozess zu beschleunigen?