Statistiken und Big Data mixed-type-data

6

Kann die Hauptkomponentenanalyse auf Datensätze angewendet werden, die eine Mischung aus kontinuierlichen und kategorialen Variablen enthalten?

Ich habe einen Datensatz, der sowohl kontinuierliche als auch kategoriale Daten enthält. Ich analysiere mit PCA und frage mich, ob es in Ordnung ist, die kategorialen Variablen in die Analyse einzubeziehen. Meines Wissens kann PCA nur auf kontinuierliche Variablen angewendet werden. Ist das korrekt? Welche Alternativen für ihre Analyse gibt …

147 categorical-data pca correspondence-analysis mixed-type-data

6

Korrelationen mit ungeordneten kategorialen Variablen

Ich habe einen Datenrahmen mit vielen Beobachtungen und vielen Variablen. Einige von ihnen sind kategorisch (ungeordnet) und die anderen sind numerisch. Ich suche nach Assoziationen zwischen diesen Variablen. Ich konnte die Korrelation für numerische Variablen berechnen (Spearman-Korrelation), aber: Ich weiß nicht, wie ich die Korrelation zwischen ungeordneten kategorialen Variablen messen …

123 r correlation categorical-data continuous-data mixed-type-data

2

Hierarchisches Clustering mit gemischten Datentypen - Welche Entfernung / Ähnlichkeit ist zu verwenden?

In meinem Datensatz haben wir sowohl kontinuierliche als auch natürlich diskrete Variablen. Ich möchte wissen, ob wir hierarchisches Clustering mit beiden Variablentypen durchführen können. Und wenn ja, welches Entfernungsmaß ist angemessen?

34 clustering similarities distance-functions mixed-type-data

2

Wie werden beim Clustering sowohl binäre als auch kontinuierliche Variablen zusammen verwendet?

Ich muss in k-means binäre Variablen (Werte 0 & 1) verwenden. K-means arbeitet aber nur mit stetigen Variablen. Ich weiß, dass einige Leute diese binären Variablen immer noch in k-means verwenden, ohne die Tatsache zu ignorieren, dass k-means nur für kontinuierliche Variablen ausgelegt ist. Das ist für mich inakzeptabel. Fragen: …

27 r clustering binary-data k-means mixed-type-data

4

Warum sind gemischte Daten ein Problem für euklidische Clustering-Algorithmen?

Die meisten klassischen Algorithmen für Clustering und Dimensionsreduktion (hierarchisches Clustering, Hauptkomponentenanalyse, k-Means, selbstorganisierende Karten ...) wurden speziell für numerische Daten entwickelt und ihre Eingabedaten werden als Punkte in einem euklidischen Raum betrachtet. Dies ist natürlich ein Problem, da es sich bei vielen Fragen aus der Praxis um gemischte Daten handelt: …

21 clustering dimensionality-reduction distance self-organizing-maps mixed-type-data

8

Clustering gemischter Datentypen mit R

Verschlossen . Diese Frage und ihre Antworten sind gesperrt, da die Frage nicht zum Thema gehört, aber von historischer Bedeutung ist. Derzeit werden keine neuen Antworten oder Interaktionen akzeptiert. Ich frage mich, ob es möglich ist, innerhalb von R ein Clustering von Daten mit gemischten Datenvariablen durchzuführen. Mit anderen Worten, …

19 r clustering mixed-type-data

1

Ist es in Ordnung, kategoriale und kontinuierliche Daten für SVM (Support Vector Machines) zu mischen?

Ich habe einen Datensatz wie +--------+------+-------------------+ | income | year | use | +--------+------+-------------------+ | 46328 | 1989 | COMMERCIAL EXEMPT | | 75469 | 1998 | CONDOMINIUM | | 49250 | 1950 | SINGLE FAMILY | | 82354 | 2001 | SINGLE FAMILY | | 88281 | 1985 | …

14 categorical-data svm mixed-type-data

1

Robuste Cluster-Methode für gemischte Daten in R.

Ich möchte einen kleinen Datensatz gruppieren (64 Beobachtungen von 4 Intervallvariablen und einer einzelnen kategorialen Drei-Faktor-Variablen). Jetzt bin ich ziemlich neu in der Clusteranalyse, aber ich bin mir bewusst, dass seit den Tagen, als hierarchisches Clustering oder k-means die einzigen verfügbaren Optionen waren, erhebliche Fortschritte erzielt wurden. Insbesondere scheinen neue …

12 clustering model-based-clustering mixed-type-data

2

Wie berechnet der Gower-Abstand die Differenz zwischen binären Variablen?

Ich habe 17 numerische und 5 binäre (0-1) Variablen mit 73 Beispielen in meinem Datensatz. Ich muss eine Clusteranalyse durchführen. Ich weiß, dass der Gower-Abstand eine gute Metrik für Datensätze mit gemischten Variablen ist. Aber ich konnte nicht verstehen , wie der Gower Abstand die Differenz zwischen berechnet Binärgrößen . …

12 clustering distance mixed-type-data

1

t-SNE mit gemischten kontinuierlichen und binären Variablen

Ich untersuche derzeit die Visualisierung hochdimensionaler Daten mit t-SNE. Ich habe einige Daten mit gemischten binären und kontinuierlichen Variablen und die Daten scheinen die binären Daten viel zu leicht zu gruppieren. Dies wird natürlich für skalierte Daten (zwischen 0 und 1) erwartet: Der euklidische Abstand ist zwischen binären Variablen immer …

10 python dimensionality-reduction unsupervised-learning tsne mixed-type-data

1

Diskrete Daten und Alternativen zu PCA

Ich habe einen Datensatz mit diskreten (ordinalen, meristischen und nominalen) Variablen, die morphologische Flügelcharakteristika für mehrere eng verwandte Insektenarten beschreiben. Ich möchte eine Art Analyse durchführen, die mir eine visuelle Darstellung der Ähnlichkeit der verschiedenen Arten anhand der morphologischen Eigenschaften gibt. Das erste, was mir in den Sinn kam, war …

9 pca discrete-data correspondence-analysis mixed-type-data

Als «mixed-type-data» getaggte Fragen