Können nähere Punkte in der T-SNE-Visualisierung als ähnlicher angesehen werden?

Ich verstehe aus Hintons Aufsatz, dass T-SNE gute Arbeit bei der Wahrung lokaler Ähnlichkeiten und gute Arbeit bei der Wahrung der globalen Struktur leistet (Clusterbildung).

Es ist mir jedoch nicht klar, ob Punkte, die in einer 2D-t-sne-Visualisierung näher erscheinen, als "ähnlichere" Datenpunkte angenommen werden können. Ich verwende Daten mit 25 Funktionen.

Kann ich als Beispiel annehmen, dass die blauen Datenpunkte den grünen ähnlicher sind, insbesondere dem größten Grünpunkt-Cluster? Oder, anders gefragt, ist es in Ordnung anzunehmen, dass blaue Punkte dem grünen im nächsten Cluster ähnlicher sind als den roten im anderen Cluster? (ohne Berücksichtigung der grünen Punkte im rot-ish Cluster)

Wenn man andere Beispiele betrachtet, wie die, die bei sci-kit learn Manifold learning vorgestellt werden, scheint es richtig, dies anzunehmen, aber ich bin nicht sicher, ob dies statistisch korrekt ist.

BEARBEITEN

Ich habe die Entfernungen vom ursprünglichen Datensatz manuell berechnet (die mittlere paarweise euklidische Entfernung) und die Visualisierung repräsentiert tatsächlich eine proportionale räumliche Entfernung zum Datensatz. Ich möchte jedoch wissen, ob dies von der ursprünglichen mathematischen Formulierung von t-sne und nicht nur von einem Zufall zu erwarten ist.

— Javierfdr
quelle

Die blauen Punkte sind den jeweiligen grünen Nachbarpunkten am nächsten. Auf diese Weise wurde die Einbettung durchgeführt. Die Ähnlichkeiten (oder der Abstand) sollten lose gesehen beibehalten werden. Wenn Sie von 25 Dimensionen auf nur 2 Dimensionen wechseln, gehen höchstwahrscheinlich Informationen verloren. Die 2D-Darstellung ist jedoch die am nächsten liegende, die auf dem Bildschirm angezeigt werden kann.

— Vladislavs Dovgalecs

Ich würde t-SNE als eine intelligente probabilistische Anpassung der lokal linearen Einbettung präsentieren. In beiden Fällen versuchen wir, Punkte aus einem hochdimensionalen Raum in einen kleinen zu projizieren. Diese Projektion erfolgt durch Optimierung der Einhaltung lokaler Distanzen (direkt mit LLE, Vorproduktion einer Wahrscheinlichkeitsverteilung und Optimierung der KL-Divergenz mit t-SNE). Wenn Ihre Frage dann lautet, ob sie globale Entfernungen einhält, lautet die Antwort nein. Dies hängt von der "Form" Ihrer Daten ab (wenn die Verteilung glatt ist, sollten die Entfernungen irgendwie beibehalten werden).

t-SNE funktioniert auf der Schweizer Rolle (Ihrem "S" 3D-Bild) nicht gut, und Sie können sehen, dass im 2D-Ergebnis die mittleren gelben Punkte im Allgemeinen näher an den roten als an den blauen Punkten liegen perfekt im 3D-Bild zentriert sind).

Ein weiteres gutes Beispiel für die Funktionsweise von t-SNE ist das Clustering handgeschriebener Ziffern. Beispiele finden Sie unter diesem Link: https://lvdmaaten.github.io/tsne/

— Robin
quelle

Was ich meine ist, dass man nicht einfach die Distanz im unteren Raum als Ähnlichkeitskriterium verwenden kann. t-SNE behält die globale Struktur bei, z. B. Cluster, muss jedoch keine Abstände einhalten. Dies hängt von der Form der hochdimensionalen Daten und der von Ihnen verwendeten Ratlosigkeit ab.

— Robin

OK, ich verstehe. Danke fürs klarstellen. Ja, ich stimme zu, dass Entfernungen im unteren Raum nicht genau wären. Nun, da t-sne für die Visualisierung praktisch ist, kann ich Entfernungen im unteren dimensionalen Plot konzeptionell verwenden? Zum Beispiel kann ich in meiner Handlung mit Sicherheit sagen, dass blaue Punkte eher grünen als roten Punkten ähneln, da die drei Gruppen im 2D-Raum offensichtlich voneinander getrennt sind. Oder wäre das auch schwer zu sagen?

— Javierfdr

Es ist ziemlich schwer zu sagen. Die Punkte im niedrigdimensionalen Raum werden mit einer auf den Ursprung zentrierten Gauß-Verteilung initialisiert. Sie werden dann iterativ ersetzt, um die KL-Divergenz zu optimieren. Ich würde also sagen, dass in Ihrem Fall die blauen Punkte dem grünen Cluster ähnlicher sind, aber es gibt jetzt eine Möglichkeit zu bewerten, wie weit sie vom roten Cluster entfernt sind. t-SNE.

— Robin

Zusammengenommen legt t-SNE den Schwerpunkt auf (1) die Modellierung unterschiedlicher Datenpunkte mittels großer paarweiser Abstände und (2) die Modellierung ähnlicher Datenpunkte mittels kleiner paarweiser Abstände. Insbesondere führt t-SNE Kräfte mit großer Reichweite in die niedrigdimensionale Karte ein, die zwei (Cluster von) ähnlichen Punkten zusammenführen können, die zu Beginn der Optimierung voneinander getrennt werden.

— Robin

Sehr schöne Erklärung. Vielen Dank für Deine Mühe. Ich denke, dass Sie unterschiedliche Kommentare zu einer vollständigen Antwort zusammenfassen.

— Javierfdr