Ich verstehe aus Hintons Aufsatz, dass T-SNE gute Arbeit bei der Wahrung lokaler Ähnlichkeiten und gute Arbeit bei der Wahrung der globalen Struktur leistet (Clusterbildung).
Es ist mir jedoch nicht klar, ob Punkte, die in einer 2D-t-sne-Visualisierung näher erscheinen, als "ähnlichere" Datenpunkte angenommen werden können. Ich verwende Daten mit 25 Funktionen.
Kann ich als Beispiel annehmen, dass die blauen Datenpunkte den grünen ähnlicher sind, insbesondere dem größten Grünpunkt-Cluster? Oder, anders gefragt, ist es in Ordnung anzunehmen, dass blaue Punkte dem grünen im nächsten Cluster ähnlicher sind als den roten im anderen Cluster? (ohne Berücksichtigung der grünen Punkte im rot-ish Cluster)
Wenn man andere Beispiele betrachtet, wie die, die bei sci-kit learn Manifold learning vorgestellt werden, scheint es richtig, dies anzunehmen, aber ich bin nicht sicher, ob dies statistisch korrekt ist.
BEARBEITEN
Ich habe die Entfernungen vom ursprünglichen Datensatz manuell berechnet (die mittlere paarweise euklidische Entfernung) und die Visualisierung repräsentiert tatsächlich eine proportionale räumliche Entfernung zum Datensatz. Ich möchte jedoch wissen, ob dies von der ursprünglichen mathematischen Formulierung von t-sne und nicht nur von einem Zufall zu erwarten ist.