Wann ist t-SNE irreführend?


37

Zitat eines Autors:

Das t-Distributed Stochastic Neighbor Embedding (t-SNE) ist eine ( preisgekrönte ) Technik zur Dimensionsreduktion, die sich besonders für die Visualisierung hochdimensionaler Datensätze eignet.

Es klingt ziemlich gut, aber das ist der Autor.

Ein weiteres Zitat des Autors (zum oben genannten Wettbewerb):

Was haben Sie von diesem Wettbewerb mitgenommen?
Visualisieren Sie Ihre Daten immer zuerst, bevor Sie damit beginnen, Prädiktoren für die Daten zu trainieren! Oftmals bieten Visualisierungen wie die von mir erstellten Einblicke in die Datenverteilung, die Sie bei der Bestimmung der zu testenden Vorhersagemodelltypen unterstützen können.

Informationen müssen 1 werden verloren gehen - es ist eine Dimensionsreduktion Technik afterall. Da es sich bei der Visualisierung jedoch um eine gute Technik handelt, sind die verlorenen Informationen weniger wertvoll als die hervorgehobenen Informationen (/ sichtbar gemacht / verständlich gemacht durch Reduzierung auf zwei oder drei Dimensionen).

Meine Frage lautet also:

  • Wann ist tSNE das falsche Werkzeug für den Job?
  • Welche Art von Datensätzen verursachen, dass es nicht funktioniert,
  • Wie sieht es mit Fragen aus, die es beantworten kann, aber eigentlich nicht?
  • Im zweiten Zitat oben wird empfohlen, Ihren Datensatz immer zu visualisieren. Soll diese Visualisierung immer mit tSNE erfolgen?

Ich gehe davon aus, dass diese Frage im Umkehrschluss am besten beantwortet werden kann: Wann ist tSNE das richtige Werkzeug für den Job?


Ich wurde gewarnt, mich nicht auf tSNE zu verlassen, um mir mitzuteilen, wie einfach Daten klassifizierbar sind (in Klassen unterteilt - ein Unterscheidungsmodell). Das Beispiel für die Irreführung war, dass für die beiden folgenden Bilder ein generatives Modell 2 schlechter war für die Daten in der ersten / linken (Genauigkeit 53,6%) als ein Äquivalent für die zweite / rechte (Genauigkeit 67,2%).

zuerst zweite


1 Ich könnte mich irren, wenn ich mich später an ein Proof / Counter-Beispiel setze

2 Beachten Sie, dass ein generatives Modell nicht dasselbe ist wie ein diskriminatives Modell, aber dies ist das Beispiel, das mir gegeben wurde.


1
In Bezug auf Ihre Aussage, dass "Informationen verloren gehen müssen": Eine bijektive Zuordnung zwischen Mengen und existiert genau dann, wenn ihre Kardinalität übereinstimmt,. Und wir haben zum Beispiel und (siehe hier ). Das heißt, wir können im Prinzip so viele Informationen in wie in . B | A | = | B | | N | = | N n | = 0 | R | = | R | = | R n | = 1 R 2 RAB|A|=|B||N|=|Nn|=0|R|=|R|=|Rn|=1R2R
Lucas

@ Lucas: Ah, natürlich. (wie habe ich das nicht gemerkt)
Lyndon White

Welches generative Modell versuchen Sie?
WeiChing Lin

@ Wei-ChingLin Ich bin nicht sicher, welche Art von generativem Modell verwendet wurde. Wahrscheinlich eine Art Deep Belief Network, Deep Boltzmann Manchine oder Autoencoder. Nicht wirklich relevant für den Kern der Frage
Lyndon White

Antworten:


13

T-Sne ist eine Verkleinerungstechnik, die die kleinräumige Struktur (dh was ist besonders nah an was) des Raums beibehält, was es sehr gut macht, die Datentrennbarkeit zu visualisieren. Dies bedeutet, dass T-Sne besonders nützlich für die frühe Visualisierung ist, um den Grad der Datentrennbarkeit zu verstehen. Andere Techniken (z. B. PCA) belassen Daten in Darstellungen niedrigerer Dimensionen, die übereinander projiziert werden, wenn die Dimensionen verschwinden, was es sehr schwierig macht, eine eindeutige Aussage über die Trennbarkeit im Raum höherer Dimensionen zu treffen.

Wenn Sie beispielsweise ein T-Sne-Diagramm mit vielen überlappenden Daten erhalten, besteht eine hohe Wahrscheinlichkeit, dass Ihr Klassifikator unabhängig von Ihrer Tätigkeit eine schlechte Leistung erbringt. Wenn Sie im T-Sne-Diagramm klar getrennte Daten sehen, enthalten die zugrunde liegenden, hochdimensionalen Daten eine ausreichende Variabilität, um einen guten Klassifikator zu erstellen.


3
Das ist eine sehr gute Erklärung dafür, was T-SNE ist, danke. Aber ich sehe keine Antworten auf meine eigentlichen Fragen (Siehe die Punkte im Eröffnungsbeitrag.)
Lyndon White

5
Dies beantwortet die Frage überhaupt nicht.
Amöbe sagt Reinstate Monica

10

TSNE weist einige Hyperparameter auf, von denen der größte die Verwirrung ist. Denken Sie daran, dass Ratlosigkeit heuristisch gesehen einen Ähnlichkeitsbegriff für tSNE definiert und eine universelle Ratlosigkeit für alle Datenpunkte verwendet wird. Sie könnten versuchen, ein beschriftetes Dataset zu generieren, bei dem jeder Cluster eine völlig andere Ratlosigkeit aufweist. Dies kann durch eine Mischung von Gaußschen mit einer Vielzahl unterschiedlicher Varianzen erreicht werden. Ich vermute, dass dies auch Probleme bei der Barnes-Hut-Implementierung von tSNE verursachen wird, das sich auf Quartiling-Daten stützt und nur die nächsten Nachbarn verwendet. tSNE hat auch eine anfängliche Relaxationsperiode, in der versucht wird, Cluster durcheinander zu bringen. Während dieser Zeit gibt es keine Strafe oder Abstoßung. Wenn Ihre Daten beispielsweise aus einer verfilzten Gruppe von Nudeln bestehen (wobei jede Nudel einen bestimmten Cluster darstellt), Es wird schwierig, den ersten Durchgang zu kalibrieren, und ich bezweifle, dass tSNE gut funktionieren wird. In gewissem Sinne denke ich, dass dies darauf hindeutet, dass tSNE nicht gut funktioniert, wenn Ihre Daten zusammengewoben sind und sich anfangs in einem Raum mit geringen Abmessungen befinden, z. B. 5.

Im Allgemeinen ist tSNE aufgrund des "t" -Teils gut , der eine noch ungelöste Frage in SNE behebt, wie Punkte in Räumen mit geringeren Dimensionen im Vergleich zu höheren Dimensionen platziert werden können. Es stellt sich heraus, dass sich der Abstand von Datenpunkten in höheren Dimensionen im Durchschnitt völlig anders verhält als in niedrigeren Dimensionen. Insbesondere rät tSNE nachdrücklich von der Verwendung von Gaußschen zur Messung von Entfernungen in niedrigeren Dimensionen ab und wählt stattdessen die eindimensionale Verteilung (dh die Cauchy-Verteilung), die hohe Schwänze aufweist und eine stärkere Streuung in der unteren dimensionalen Darstellung ermöglicht. Es ist also denkbar, dass das "t" in tSNE auch ein Hyperparameter ist, bei dem Sie stattdessen verschiedene Verteilungen auswählen können (wenn auch mit hohem Rechenaufwand).t

Sie sollten sich tSNE als unbeaufsichtigte Clustering-Methode vorstellen. Daher gibt es keinen Grund zu der Annahme, dass dies das einzige Tool für diesen Job ist. Ich denke, insgesamt kann es ein fantastisches Werkzeug sein, wenn es richtig kalibriert wird. Bei großen Datenmengen ist dies jedoch recht langsam, und es ist möglicherweise besser, wenn Sie beispielsweise eine optimierte Form von Mitteln oder sogar PCA verwenden, je nachdem, wie dünn die Daten sind.k

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.