T-Distributed Stochastic Neighbor Embedding (t-SNE) ist ein nichtlinearer Algorithmus zur Reduzierung der Dimensionalität, der 2008 von van der Maaten und Hinton eingeführt wurde.
Ich habe eine Anwendung, in der es nützlich wäre, ein verrauschtes Dataset zu gruppieren, bevor Sie nach Untergruppeneffekten in den Clustern suchen. Ich habe mir zuerst PCA angeschaut, aber es werden ca. 30 Komponenten benötigt, um 90% der Variabilität zu erreichen. Wenn Sie also auf nur ein paar PCs gruppieren, …
Ich möchte sehen, wie sich 7 Messgrößen des Textkorrekturverhaltens (Zeitaufwand für die Korrektur des Texts, Anzahl der Tastenanschläge usw.) aufeinander beziehen. Die Maßnahmen sind korreliert. Ich führte eine PCA durch, um zu sehen, wie die Kennzahlen auf PC1 und PC2 projiziert wurden, wodurch vermieden wurde, dass separate Zwei-Wege-Korrelationstests zwischen den …
In meinen Augen ist die KL-Abweichung von der Probenverteilung zur wahren Verteilung einfach der Unterschied zwischen Kreuzentropie und Entropie. Warum verwenden wir die Kreuzentropie als Kostenfunktion in vielen maschinellen Lernmodellen, verwenden aber die Kullback-Leibler-Divergenz in t-sne? Gibt es einen Unterschied in der Lerngeschwindigkeit?
Zitat eines Autors: Das t-Distributed Stochastic Neighbor Embedding (t-SNE) ist eine ( preisgekrönte ) Technik zur Dimensionsreduktion, die sich besonders für die Visualisierung hochdimensionaler Datensätze eignet. Es klingt ziemlich gut, aber das ist der Autor. Ein weiteres Zitat des Autors (zum oben genannten Wettbewerb): Was haben Sie von diesem Wettbewerb …
In einer kürzlich durchgeführten Aufgabe wurde uns befohlen, PCA für die MNIST-Ziffern zu verwenden, um die Abmessungen von 64 (8 x 8 Bilder) auf 2 zu reduzieren. Anschließend mussten wir die Ziffern mit einem Gaußschen Mischungsmodell gruppieren. PCA, das nur zwei Hauptkomponenten verwendet, ergibt keine eindeutigen Cluster, weshalb das Modell …
Ich habe eine Matrix von 336x256 Gleitkommazahlen (336 Bakteriengenome (Spalten) x 256 normalisierte Tetranukleotidfrequenzen (Zeilen), z. B. addiert sich jede Spalte zu 1). Ich erhalte gute Ergebnisse, wenn ich meine Analyse mit der Hauptkomponentenanalyse durchführe. Zuerst berechne ich die kmeans-Cluster anhand der Daten, führe dann eine PCA durch und färbe …
Ich habe viel über den sne- Algorithmus zur Dimensionsreduktion gelesen . Ich bin sehr beeindruckt von der Leistung bei "klassischen" Datensätzen wie MNIST, bei denen eine klare Trennung der Ziffern erzielt wird ( siehe Originalartikel ):ttt Ich habe es auch verwendet, um die Funktionen eines neuronalen Netzwerks zu visualisieren, das …
Ich habe kürzlich einige Fragen zu t-SNE ( t-Distributed Stochastic Neighbor Embedding ) gelesen und auch einige Fragen zu MDS ( Multidimensional Scaling ) besucht. Sie werden oft analog verwendet, daher schien es eine gute Idee zu sein, diese Frage zu stellen, da es hier viele Fragen zu beiden getrennt …
Mein Verständnis von t-SNE und der Barnes-Hut-Näherung ist, dass alle Datenpunkte erforderlich sind, damit alle Kraftwechselwirkungen gleichzeitig berechnet werden können und jeder Punkt in der 2d-Karte (oder der Karte mit der niedrigeren Dimension) angepasst werden kann. Gibt es Versionen von t-sne, die effizient mit Streaming-Daten umgehen können? Wenn also meine …
Einige Funktionen meiner Daten haben große Werte, während andere Funktionen viel kleinere Werte haben. Müssen die Daten vor dem Anwenden von t-SNE zentriert und skaliert werden, um eine Verzerrung in Richtung der größeren Werte zu vermeiden? Ich verwende die sklearn.manifold.TSNE-Implementierung von Python mit der standardmäßigen euklidischen Distanzmetrik.
Ich habe einen Doktortitel in Molekularbiologie. Meine Studien haben vor kurzem begonnen, hochdimensionale Datenanalysen zu beinhalten. Ich hatte die Idee, wie t-SNE funktioniert (dank eines StatQuest-Videos auf YouTube ), kann mich aber nicht um UMAP kümmern (ich habe mir den Vortrag des UMAP-Erstellers online angehört, fand ihn aber nicht leicht …
Als spezifisches Problem, mit dem ich arbeite (einen Wettbewerb), habe ich die folgende Einstellung: 21 Funktionen (numerisch auf [0,1]) und einen Binärausgang. Ich habe ca. 100 K Zeilen. Die Einstellung scheint sehr laut zu sein. Ich und andere Teilnehmer wenden die Feature-Generierung für eine Weile an, und das Einbetten von …
Ich versuche gerade, meinen Kopf um die t-SNE- Mathematik zu wickeln . Leider gibt es noch eine Frage, die ich nicht zufriedenstellend beantworten kann: Was ist die tatsächliche Bedeutung der Achsen in einem t-SNE-Diagramm? Wenn ich zu diesem Thema einen Vortrag halten oder in eine Veröffentlichung aufnehmen würde: Wie würde …
Nehmen wir an, wir haben ein Klassifizierungsproblem und möchten zunächst einen Einblick in die Daten erhalten, und wir machen t-SNE. Das Ergebnis von t-SNE trennt Klassen sehr gut. Dies impliziert, dass es möglich ist, ein Klassifizierungsmodell zu erstellen, das auch Klassen sehr gut trennt (wenn t-SNE nicht gut trennt, bedeutet …
In welchen Situationen sollten wir t-SNE verwenden (abgesehen von der Datenvisualisierung)? T-SNE wird zur Dimensionsreduzierung verwendet. Die Antwort auf diese Frage legt nahe, dass t-SNE nur zur Visualisierung und nicht zum Clustering verwendet werden sollte. Was nützt dann t-SNE?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.