Wie kann man Cluster schön plotten?


7

Ich habe einen großen Textdatensatz geclustert. Jeder Cluster wird durch einen Schwerpunkt der dazugehörigen vektorisierten Texte, die Anzahl der Texte, das Erstellungsdatum und andere Parameter dargestellt. Ich kann die Cluster nicht in einem n-dimensionalen Raum darstellen. Welche Möglichkeiten habe ich?


Suche nach Holoviews
Aditya

Das Lätzchen ist großartig @Aditya!
Federico Caccia

Ein Beispielplot mit Datashader aus demselben .. datascience.stackexchange.com/a/28659/35644 @Federico Caccia
Aditya

Antworten:


3

T-SNE ist ein weiterer Algorithmus zur Verringerung der Dimensionalität, der im Artikel in der anderen Antwort nicht erwähnt wird. Wird für SEHR hochdimensionale Daten verwendet, wenn Sie einige Einbettungen für Ihren Datensatz trainiert haben. Referenz hier . Python-Standardbibliothek hier .

Prost


2

Mehrere Möglichkeiten:

viele mehr ...


1

Sie können einen Dimensionsreduktionsalgorithmus (wie die Hauptkomponentenanalyse) verwenden, um die Anzahl der Dimensionen der Daten auf 2 oder 3 zu reduzieren, und dann Streudiagramme mit den reduzierten Variablen durchführen und sie entsprechend dem Cluster färben, zu dem sie gehören. In diesem Blogpost wird etwas Ähnliches getan.


Ich habe Tausende von Dimensionen, so dass PCA zu viel Informationsverlust verursachen kann. Und ich möchte nur die Schwerpunkte jedes Clusters zeichnen. Ich denke, der beste Weg ist, die Erstellungszeit gegen ein anderes Feature zu zeichnen und dem Punkt (der Blase) einen Radius zu geben, der proportional zur Anzahl der Elemente in diesem Cluster ist.
Federico Caccia
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.