Der Hauptunterschied zwischen t-SNE und UMAP ist die Interpretation des Abstands zwischen Objekten oder "Clustern". Ich benutze die Anführungszeichen, da beide Algorithmen nicht für das Clustering gedacht sind - sie sind hauptsächlich für die Visualisierung gedacht.
t-SNE behält die lokale Struktur in den Daten bei.
UMAP behauptet, sowohl die lokale als auch den größten Teil der globalen Struktur in den Daten beizubehalten.
Dies bedeutet, dass Sie mit t-SNE den Abstand zwischen den Clustern A und B an verschiedenen Enden Ihres Diagramms nicht interpretieren können. Sie können nicht schließen, dass diese Cluster unterschiedlicher sind als A und C, wobei C im Diagramm näher an A liegt. Innerhalb von Cluster A können Sie jedoch sagen, dass nahe beieinander liegende Punkte ähnlichere Objekte sind als Punkte an verschiedenen Enden des Clusterbilds.
Mit UMAP sollten Sie in der Lage sein, sowohl die Abstände zwischen / Positionen von Punkten als auch von Clustern zu interpretieren.
Beide Algorithmen sind sehr stochastisch und hängen stark von der Wahl der Hyperparameter ab (t-SNE sogar mehr als UMAP) und können in verschiedenen Läufen sehr unterschiedliche Ergebnisse liefern, sodass Ihr Diagramm möglicherweise Informationen in den Daten verschleiert, die ein nachfolgender Lauf möglicherweise enthüllt.
Gute alte PCA hingegen ist deterministisch und mit Grundkenntnissen der linearen Algebra (Matrixmultiplikation und Eigenprobleme) leicht verständlich, aber nur eine lineare Reduktion im Gegensatz zu den nichtlinearen Reduktionen von t-SNE und UMAP.