Das t-Distributed Stochastic Neighbor Embedding (t-SNE) ist eine ( preisgekrönte ) Technik zur Dimensionsreduktion, die sich besonders für die Visualisierung hochdimensionaler Datensätze eignet.
Es klingt ziemlich gut, aber das ist der Autor.
Ein weiteres Zitat des Autors (zum oben genannten Wettbewerb):
Was haben Sie von diesem Wettbewerb mitgenommen?
Visualisieren Sie Ihre Daten immer zuerst, bevor Sie damit beginnen, Prädiktoren für die Daten zu trainieren! Oftmals bieten Visualisierungen wie die von mir erstellten Einblicke in die Datenverteilung, die Sie bei der Bestimmung der zu testenden Vorhersagemodelltypen unterstützen können.
Informationen müssen 1 werden verloren gehen - es ist eine Dimensionsreduktion Technik afterall. Da es sich bei der Visualisierung jedoch um eine gute Technik handelt, sind die verlorenen Informationen weniger wertvoll als die hervorgehobenen Informationen (/ sichtbar gemacht / verständlich gemacht durch Reduzierung auf zwei oder drei Dimensionen).
Meine Frage lautet also:
- Wann ist tSNE das falsche Werkzeug für den Job?
- Welche Art von Datensätzen verursachen, dass es nicht funktioniert,
- Wie sieht es mit Fragen aus, die es beantworten kann, aber eigentlich nicht?
- Im zweiten Zitat oben wird empfohlen, Ihren Datensatz immer zu visualisieren. Soll diese Visualisierung immer mit tSNE erfolgen?
Ich gehe davon aus, dass diese Frage im Umkehrschluss am besten beantwortet werden kann: Wann ist tSNE das richtige Werkzeug für den Job?
Ich wurde gewarnt, mich nicht auf tSNE zu verlassen, um mir mitzuteilen, wie einfach Daten klassifizierbar sind (in Klassen unterteilt - ein Unterscheidungsmodell). Das Beispiel für die Irreführung war, dass für die beiden folgenden Bilder ein generatives Modell 2 schlechter war für die Daten in der ersten / linken (Genauigkeit 53,6%) als ein Äquivalent für die zweite / rechte (Genauigkeit 67,2%).
1 Ich könnte mich irren, wenn ich mich später an ein Proof / Counter-Beispiel setze
2 Beachten Sie, dass ein generatives Modell nicht dasselbe ist wie ein diskriminatives Modell, aber dies ist das Beispiel, das mir gegeben wurde.