Ich verwende routinemäßig -SNE ( neben Clustering-Techniken - dazu am Ende mehr ), um das Vorhandensein von Clustern in meinen Daten zu erkennen / zu bewerten. Leider gibt es meines Wissens keine Standardmethode, um die richtige Ratlosigkeit zu wählen, ohne den erzeugten Datensatz mit reduzierten Dimensionen zu betrachten und dann zu beurteilen, ob er sinnvoll ist. Es gibt einige allgemeine Fakten, z. Abstände zwischen Clustern sind größtenteils bedeutungslos, kleine Ratlosigkeitswerte fördern kleine gerinnselartige Strukturen, aber das war's auch schon.t
Eine sehr grobe Faustregel besteht darin, zu überprüfen, welcher Fehlerwert mit jeder Rekonstruktion verbunden ist. t-SNE versucht, die Summe der Kullback-Leibler-Divergenzen zwischen der Verteilung der Abstände zwischen den Daten in der ursprünglichen Domäne und der Verteilung der Abstände zwischen den Daten in der Domäne mit reduzierter Dimension zu minimieren (tatsächlich sind die Zielverteilungen die Verteilungen der Wahrscheinlichkeiten, dass ein Punkt einen anderen Punkt als Nachbarpunkt auswählt, die jedoch direkt proportional zum Abstand zwischen den beiden Punkten sind). Es könnte argumentiert werden, dass kleinere Werte der KL-Divergenz bessere Ergebnisse zeigen. Diese Idee funktioniert in der Praxis nicht sehr gut, aber es würde theoretisch helfen, einige Bereiche der Ratlosigkeitswerte sowie einige Läufe des Algorithmus, die eindeutig suboptimal sind, auszuschließen. Ich erkläre, warum diese Heuristik alles andere als ein Allheilmittel ist und wie sie dennoch von geringem Nutzen sein könnte: Der Ratlosigkeitsparameter steigt monoton mit der Varianz des Gaußschen an, der zur Berechnung der Abstände / Wahrscheinlichkeiten verwendet wird. Wenn Sie also den Parameter für die Ratlosigkeit insgesamt erhöhen, erhalten Sie in absoluten Zahlen kleinere Abstände und nachfolgende KL-Divergenzwerte. Wenn Sie jedoch 20 Läufe mit der gleichen Ratlosigkeit haben und diese nicht anzeigen können (wollen), können Sie immer den mit der kleinsten Variablen auswählen, in der Hoffnung, dass er die ursprünglichen Abstände genauer beibehält. Gleiches gilt für die Wenn Sie jedoch 20 Läufe mit der gleichen Ratlosigkeit haben und diese nicht anzeigen können (wollen), können Sie immer den mit der kleinsten Variablen auswählen, in der Hoffnung, dass er die ursprünglichen Abstände genauer beibehält. Gleiches gilt für die Wenn Sie jedoch 20 Läufe mit der gleichen Ratlosigkeit haben und diese nicht anzeigen können (wollen), können Sie immer den mit der kleinsten Variablen auswählen, in der Hoffnung, dass er die ursprünglichen Abstände genauer beibehält. Gleiches gilt für die , der Näherungsparameter für die Barnes-Hut-Näherung, unter der Annahme, dass die Ratlosigkeit feststeht, ändert sich θ, und die Überprüfung der daraus resultierenden Kosten sollte ein wenig informativ sein. Letztendlich sind geringere Kosten mit originalgetreueren Rekonstruktionen verbunden. Es ist aber nicht alles verloren ...θθ
kktt-SNE wurde schließlich in erster Linie verwendet. Wenn die resultierende Darstellung für die untersuchten Eigenschaften nicht aussagekräftig ist, ist sie trotz des geringen Rekonstruktionsfehlers, der optischen Attraktivität usw. einfach nicht gut.
Lassen Sie mich darauf hinweisen, dass ich Heuristiken beschreibe . Wie eingangs erwähnt, ist die manuelle Überprüfung der Ergebnisse ein unverzichtbarer Weg, um die Qualität der resultierenden Dimensionsreduktion / Clusterbildung zu bewerten.