Statistiken und Big Data tsne

6

Ich habe eine Anwendung, in der es nützlich wäre, ein verrauschtes Dataset zu gruppieren, bevor Sie nach Untergruppeneffekten in den Clustern suchen. Ich habe mir zuerst PCA angeschaut, aber es werden ca. 30 Komponenten benötigt, um 90% der Variabilität zu erreichen. Wenn Sie also auf nur ein paar PCs gruppieren, …

78 clustering interpretation k-means tsne

3

Gibt es Fälle, in denen PCA geeigneter ist als t-SNE?

Ich möchte sehen, wie sich 7 Messgrößen des Textkorrekturverhaltens (Zeitaufwand für die Korrektur des Texts, Anzahl der Tastenanschläge usw.) aufeinander beziehen. Die Maßnahmen sind korreliert. Ich führte eine PCA durch, um zu sehen, wie die Kennzahlen auf PC1 und PC2 projiziert wurden, wodurch vermieden wurde, dass separate Zwei-Wege-Korrelationstests zwischen den …

39 pca tsne

1

Warum verwenden wir die Kullback-Leibler-Divergenz anstatt die Entropie in der t-SNE-Zielfunktion zu kreuzen?

In meinen Augen ist die KL-Abweichung von der Probenverteilung zur wahren Verteilung einfach der Unterschied zwischen Kreuzentropie und Entropie. Warum verwenden wir die Kreuzentropie als Kostenfunktion in vielen maschinellen Lernmodellen, verwenden aber die Kullback-Leibler-Divergenz in t-sne? Gibt es einen Unterschied in der Lerngeschwindigkeit?

39 kullback-leibler tsne cross-entropy

2

Wann ist t-SNE irreführend?

Zitat eines Autors: Das t-Distributed Stochastic Neighbor Embedding (t-SNE) ist eine ( preisgekrönte ) Technik zur Dimensionsreduktion, die sich besonders für die Visualisierung hochdimensionaler Datensätze eignet. Es klingt ziemlich gut, aber das ist der Autor. Ein weiteres Zitat des Autors (zum oben genannten Wettbewerb): Was haben Sie von diesem Wettbewerb …

37 data-visualization dimensionality-reduction tsne

3

Warum wird t-SNE nicht als Dimensionsreduktionstechnik für Clustering oder Klassifizierung verwendet?

In einer kürzlich durchgeführten Aufgabe wurde uns befohlen, PCA für die MNIST-Ziffern zu verwenden, um die Abmessungen von 64 (8 x 8 Bilder) auf 2 zu reduzieren. Anschließend mussten wir die Ziffern mit einem Gaußschen Mischungsmodell gruppieren. PCA, das nur zwei Hauptkomponenten verwendet, ergibt keine eindeutigen Cluster, weshalb das Modell …

34 classification clustering pca dimensionality-reduction tsne

4

Was ist los mit t-SNE vs. PCA zur Dimensionsreduktion mit R?

Ich habe eine Matrix von 336x256 Gleitkommazahlen (336 Bakteriengenome (Spalten) x 256 normalisierte Tetranukleotidfrequenzen (Zeilen), z. B. addiert sich jede Spalte zu 1). Ich erhalte gute Ergebnisse, wenn ich meine Analyse mit der Hauptkomponentenanalyse durchführe. Zuerst berechne ich die kmeans-Cluster anhand der Daten, führe dann eine PCA durch und färbe …

27 r pca tsne

3

Sollte die Reduzierung der Dimensionalität für die Visualisierung als „geschlossenes“ Problem angesehen werden, das von t-SNE gelöst wurde?

Ich habe viel über den sne- Algorithmus zur Dimensionsreduktion gelesen . Ich bin sehr beeindruckt von der Leistung bei "klassischen" Datensätzen wie MNIST, bei denen eine klare Trennung der Ziffern erzielt wird ( siehe Originalartikel ):ttt Ich habe es auch verwendet, um die Funktionen eines neuronalen Netzwerks zu visualisieren, das …

23 clustering data-visualization dimensionality-reduction high-dimensional tsne

1

t-SNE gegen MDS

Ich habe kürzlich einige Fragen zu t-SNE ( t-Distributed Stochastic Neighbor Embedding ) gelesen und auch einige Fragen zu MDS ( Multidimensional Scaling ) besucht. Sie werden oft analog verwendet, daher schien es eine gute Idee zu sein, diese Frage zu stellen, da es hier viele Fragen zu beiden getrennt …

21 data-visualization dimensionality-reduction multidimensional-scaling tsne

5

Gibt es Versionen von t-SNE für das Streaming von Daten?

Mein Verständnis von t-SNE und der Barnes-Hut-Näherung ist, dass alle Datenpunkte erforderlich sind, damit alle Kraftwechselwirkungen gleichzeitig berechnet werden können und jeder Punkt in der 2d-Karte (oder der Karte mit der niedrigeren Dimension) angepasst werden kann. Gibt es Versionen von t-sne, die effizient mit Streaming-Daten umgehen können? Wenn also meine …

19 data-visualization dimensionality-reduction multidimensional-scaling tsne

1

Sollten die Daten vor der Anwendung von t-SNE zentriert und skaliert werden?

Einige Funktionen meiner Daten haben große Werte, während andere Funktionen viel kleinere Werte haben. Müssen die Daten vor dem Anwenden von t-SNE zentriert und skaliert werden, um eine Verzerrung in Richtung der größeren Werte zu vermeiden? Ich verwende die sklearn.manifold.TSNE-Implementierung von Python mit der standardmäßigen euklidischen Distanzmetrik.

18 normalization dimensionality-reduction high-dimensional tsne

2

Intuitive Erklärung der Funktionsweise von UMAP im Vergleich zu t-SNE

Ich habe einen Doktortitel in Molekularbiologie. Meine Studien haben vor kurzem begonnen, hochdimensionale Datenanalysen zu beinhalten. Ich hatte die Idee, wie t-SNE funktioniert (dank eines StatQuest-Videos auf YouTube ), kann mich aber nicht um UMAP kümmern (ich habe mir den Vortrag des UMAP-Erstellers online angehört, fand ihn aber nicht leicht …

18 dimensionality-reduction intuition tsne

3

Auswahl der Hyperparameter mit T-SNE zur Klassifizierung

Als spezifisches Problem, mit dem ich arbeite (einen Wettbewerb), habe ich die folgende Einstellung: 21 Funktionen (numerisch auf [0,1]) und einen Binärausgang. Ich habe ca. 100 K Zeilen. Die Einstellung scheint sehr laut zu sein. Ich und andere Teilnehmer wenden die Feature-Generierung für eine Weile an, und das Einbetten von …

13 machine-learning dimensionality-reduction unsupervised-learning tsne

1

Was bedeuten die Achsen in t-SNE?

Ich versuche gerade, meinen Kopf um die t-SNE- Mathematik zu wickeln . Leider gibt es noch eine Frage, die ich nicht zufriedenstellend beantworten kann: Was ist die tatsächliche Bedeutung der Achsen in einem t-SNE-Diagramm? Wenn ich zu diesem Thema einen Vortrag halten oder in eine Veröffentlichung aufnehmen würde: Wie würde …

12 machine-learning dimensionality-reduction tsne

1

Welchen Klassifizierungsalgorithmus sollte man verwenden, nachdem man gesehen hat, dass t-SNE Klassen gut trennt?

Nehmen wir an, wir haben ein Klassifizierungsproblem und möchten zunächst einen Einblick in die Daten erhalten, und wir machen t-SNE. Das Ergebnis von t-SNE trennt Klassen sehr gut. Dies impliziert, dass es möglich ist, ein Klassifizierungsmodell zu erstellen, das auch Klassen sehr gut trennt (wenn t-SNE nicht gut trennt, bedeutet …

12 classification tsne

1

Was nützt t-SNE neben der Datenvisualisierung?

In welchen Situationen sollten wir t-SNE verwenden (abgesehen von der Datenvisualisierung)? T-SNE wird zur Dimensionsreduzierung verwendet. Die Antwort auf diese Frage legt nahe, dass t-SNE nur zur Visualisierung und nicht zum Clustering verwendet werden sollte. Was nützt dann t-SNE?

12 data-visualization dimensionality-reduction tsne

Als «tsne» getaggte Fragen