Data Science k-means

13

K-Means Clustering für gemischte numerische und kategoriale Daten

Mein Datensatz enthält eine Reihe numerischer und eine kategoriale Attribute. Sagen Sie NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, wo CategoricalAttrnimmt einen von drei möglichen Werten: CategoricalAttrValue1, CategoricalAttrValue2oder CategoricalAttrValue3. Ich verwende die standardmäßige Implementierung des k-means-Clustering-Algorithmus für Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ . Es funktioniert nur mit numerischen Daten. Also meine Frage: Ist es richtig, …

133 data-mining clustering octave k-means categorical-data

8

Clustering von Geostandortkoordinaten (Lat, lange Paare)

Was ist der richtige Ansatz und Clustering-Algorithmus für das Geolocation-Clustering? Ich verwende den folgenden Code, um Geolocation-Koordinaten zu clustern: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) …

51 machine-learning python clustering k-means geospatial

1

Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?

Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :( Ich habe nicht versucht, 500 Bäume zu züchten, da dies Stunden dauern …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

3

K bedeutet inkohärentes Verhalten bei Auswahl von K mit Ellbogenmethode, BIC, Varianzerklärung und Silhouette

Ich versuche, einige Vektoren mit 90 Merkmalen mit K-Mitteln zu gruppieren. Da dieser Algorithmus mich nach der Anzahl der Cluster fragt, möchte ich meine Wahl mit einer guten Mathematik bestätigen. Ich erwarte 8 bis 10 Cluster. Die Funktionen sind Z-Score-skaliert. Ellbogenmethode und Varianz erklärt from scipy.spatial.distance import cdist, pdist from …

23 clustering k-means

4

K-means: Was sind einige gute Möglichkeiten, um einen effizienten Satz von Anfangsschwerpunkten zu wählen?

Wenn eine zufällige Initialisierung von Zentroiden verwendet wird, erzeugen unterschiedliche Läufe von K-Mitteln unterschiedliche Gesamt-SSEs. Und es ist entscheidend für die Leistung des Algorithmus. Was sind einige effektive Ansätze zur Lösung dieses Problems? Neuere Ansätze werden geschätzt.

17 data-mining clustering k-means

5

Vergrößere die seaborn Heatmap

Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

2

K-Means vs. Online K-Means

K-means ist ein bekannter Algorithmus zum Clustering, aber es gibt auch eine Online-Variante eines solchen Algorithmus (online K-means). Was sind die Vor- und Nachteile dieser Ansätze und wann sollte jeder bevorzugt werden?

15 clustering algorithms k-means

2

Schneller Algorithmus für 10 ^ 10 Punkte?

Ich versuche k-means Clustering auf einer Menge von 10-dimensionalen Punkten durchzuführen. Der Haken: Es gibt 10 ^ 10 Punkte . Ich suche nur die Mitte und Größe der größten Cluster (sagen wir 10 bis 100 Cluster); Es ist mir egal, in welchem Cluster jeder Punkt endet. Die Verwendung von k-means …

14 clustering k-means

4

Gibt es gute Out-of-the-Box-Sprachmodelle für Python?

Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

1

Konvergenz in der Hartigan-Wong k-means-Methode und anderen Algorithmen

Ich habe versucht, die verschiedenen k-means Clustering-Algorithmen zu verstehen, die hauptsächlich im statsPaket der RSprache implementiert sind . Ich verstehe den Lloyd's-Algorithmus und den MacQueen-Online-Algorithmus. Ich verstehe sie wie folgt: Lloyd's Algorithmus: Zunächst werden 'k'-Zufallsbeobachtungen ausgewählt, die als Schwerpunkte der' k'-Cluster dienen. Dann treten die folgenden Schritte in der Iteration …

10 r clustering k-means

4

Clustering für gemischte numerische und nominale diskrete Daten

Meine Daten enthalten binäre (numerische) und nominelle / kategoriale Umfrageantworten. Alle Antworten sind diskret und auf individueller Ebene. Die Daten haben eine Form (n = 7219, p = 105). Paar Dinge: Ich versuche, eine Clustering-Technik mit einem Ähnlichkeitsmaß zu identifizieren, das für kategoriale und numerische Binärdaten funktioniert. Es gibt Techniken …

9 clustering k-means scikit-learn categorical-data

1

Generieren Sie Vorhersagen, die orthogonal (nicht korreliert) zu einer bestimmten Variablen sind

Ich habe eine XMatrix, eine yVariable und eine andere Variable ORTHO_VAR. Ich muss die yVariable vorhersagen , wobei Xdie Vorhersagen aus diesem Modell orthogonal sein müssen, ORTHO_VARwährend sie so korreliert ywie möglich sind. Ich würde es vorziehen, wenn die Vorhersagen mit einer nicht parametrischen Methode wie erzeugt werden, xgboost.XGBRegressoraber ich …

8 correlation machine-learning dataset logistic-regression prediction linear-regression prediction dummy-variables neural-network image-classification python k-nn python neural-network neural-network deep-learning keras tensorflow image-classification tensorflow reinforcement-learning policy-gradients machine-learning decision-trees neural-network overfitting data-analysis metric python scikit-learn distance scipy machine-learning python scikit-learn decision-trees logistic-regression keras image-classification implementation machine-learning python scikit-learn random-forest decision-trees machine-learning feature-selection feature-engineering word2vec word-embeddings natural-language-process scikit-learn time-series clustering k-means python cross-validation pyspark statistics cross-validation multiclass-classification evaluation machine-learning nlp machine-translation neural-network deep-learning keras tensorflow image-classification machine-learning python similarity distance lstm text named-entity-recognition machine-learning keras optimization gan learning-rate neural-network data-mining dataset databases books neural-network rnn

2

Clustering hochdimensionaler Daten

TL; DR: Wie kann ich bei einem großen Bilddatensatz (ca. 36 GiB Rohpixel) unbeschrifteter Daten die Bilder (basierend auf den Pixelwerten) gruppieren, ohne zunächst die Anzahl der Cluster Kzu kennen? Ich arbeite derzeit an einem unbeaufsichtigten Lernprojekt, um Bilder zu gruppieren. Stellen Sie sich das als Clustering von MNIST mit …

8 clustering tensorflow k-means unsupervised-learning tsne

3

Wie erhält man die Wahrscheinlichkeit, zu Clustern für k-Mittel zu gehören?

Ich muss die Wahrscheinlichkeit für jeden Punkt in meinem Datensatz ermitteln. Die Idee ist, die Abstandsmatrix zu berechnen (Abstände der ersten Spalte zum ersten Cluster, Abstände der zweiten Spalte zum zweiten Cluster usw.). Der nächstgelegene Punkt hat die Wahrscheinlichkeit = 1, der entfernteste hat die Wahrscheinlichkeit = 0. Das Problem …

8 python clustering k-means

1

Tasche mit visuellen Wörtern

Was ich versuche zu tun: Ich versuche, einige Bilder mithilfe lokaler und globaler Funktionen zu klassifizieren. Was ich bisher gemacht habe: Ich habe für jedes Bild Siebdeskriptoren extrahiert und verwende diese als Eingabe für k-means, um mein Vokabular aus allen Merkmalen jedes Bildes zu erstellen. Von hier aus erstelle ich …

7 python clustering image-classification k-means

Als «k-means» getaggte Fragen