k-means ist ein Verfahren zum Partitionieren von Daten in Cluster durch Finden einer bestimmten Anzahl von Mitteln k, st, wenn Daten Clustern mit dem nächsten Mittelwert zugewiesen werden, wird die w / i-Clustersumme der Quadrate minimiert
Ich habe die kmeansAnweisung von R verwendet, um den k-means-Algorithmus für Andersons Iris-Datensatz durchzuführen. Ich habe eine Frage zu einigen Parametern, die ich erhalten habe. Die Ergebnisse sind: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 Wofür steht in diesem Fall "Cluster"? Es ist der Mittelwert der …
Das ist mir seit mindestens ein paar Stunden in den Sinn gekommen. Ich habe versucht, ein optimales k für die Ausgabe des k-means-Algorithmus (mit einer Kosinus-Ähnlichkeitsmetrik ) zu finden, also habe ich die Verzerrung als Funktion der Anzahl der Cluster aufgetragen. Mein Datensatz ist eine Sammlung von 800 Dokumenten in …
Das mgcvPaket für Rhat zwei Funktionen zum Anpassen von Tensorproduktwechselwirkungen: te()und ti(). Ich verstehe die grundlegende Arbeitsteilung zwischen den beiden (Anpassen einer nichtlinearen Wechselwirkung vs. Zerlegen dieser Wechselwirkung in Haupteffekte und eine Wechselwirkung). Was ich nicht verstehe, ist warum te(x1, x2)und ti(x1) + ti(x2) + ti(x1, x2)kann (leicht) unterschiedliche Ergebnisse …
Ich habe eine große (650K Zeilen * 62 Spalten) Matrix von Binärdaten (nur 0-1 Einträge). Die Matrix ist meist spärlich: ca. 8% sind gefüllt. Ich möchte es in 5 Gruppen gruppieren - sagen wir von 1 bis 5. Ich habe es mit hierarchischem Clustering versucht und es konnte die Größe …
Grundproblem Hier ist mein grundlegendes Problem: Ich versuche, einen Datensatz zu gruppieren, der einige sehr verzerrte Variablen mit Zählungen enthält. Die Variablen enthalten viele Nullen und sind daher für mein Clustering-Verfahren - das wahrscheinlich ein k-means-Algorithmus ist - nicht sehr informativ. Gut, sagen Sie, transformieren Sie die Variablen einfach mit …
Ich interessiere mich für den aktuellen Stand der Technik bei der Auswahl von Ausgangssamen (Cluster-Zentren) für K-Mittel. Googeln führt zu zwei beliebten Optionen: zufällige Auswahl der Ausgangssamen und unter Verwendung der KMeans ++ - Auswahlmethode: Arthur & Vassilvitskii 2006 k-means ++: Die Vorteile einer sorgfältigen Aussaat Gibt es andere vielversprechende …
Ich verwende die latente semantische Analyse, um einen Korpus von Dokumenten im Raum niedrigerer Dimensionen darzustellen. Ich möchte diese Dokumente mit k-means in zwei Gruppen zusammenfassen. Vor einigen Jahren habe ich dies mit Pythons Gensim gemacht und meinen eigenen k-means-Algorithmus geschrieben. Ich habe die Cluster-Schwerpunkte anhand des euklidischen Abstands bestimmt, …
Ich habe eine sehr grundlegende Frage zum Clustering. Wie interpretiere ich die Klassen der Datenpunkte, die ich geclustert habe (nachdem ich jedem Cluster aussagekräftige Klassenbezeichnungen zugewiesen habe), nachdem ich k Cluster mit ihren Schwerpunkten gefunden habe? Ich spreche nicht von der Validierung der gefundenen Cluster. Kann dies bei einem kleinen …
Ich habe ein GLMM der Form: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Wenn ich benutze drop1(model, test="Chi"), erhalte ich andere Ergebnisse als wenn ich Anova(model, type="III")aus dem Autopaket oder benutze summary(model). Diese beiden letzteren geben die gleichen Antworten. Unter Verwendung einer Reihe …
Ich habe keine Branchenerfahrung im Bereich Data Mining oder Big Data und würde mich freuen, wenn Sie Erfahrungen austauschen. Führen die Leute tatsächlich k-means, PAM, CLARA usw. für einen wirklich großen Datensatz aus? Oder wählen sie einfach zufällig eine Probe aus? Wenn sie nur eine Stichprobe des Datensatzes entnehmen, wäre …
Ich verstehe den Unterschied zwischen k medoid und k means. Aber können Sie mir ein Beispiel mit einem kleinen Datensatz geben, bei dem sich die k-Medoid-Ausgabe von der k-Mittelwert-Ausgabe unterscheidet?
Ich habe einen Datensatz von 50 Proben. Jede Stichprobe besteht aus 11 (möglicherweise korrelierten) Booleschen Merkmalen. Ich möchte einige Beispiele für die Visualisierung dieser Beispiele in einem 2D-Diagramm geben und untersuchen, ob sich unter den 50 Beispielen Cluster / Gruppierungen befinden. Ich habe die folgenden zwei Ansätze ausprobiert: (a) Führen …
Eine "Vorstellung" von der optimalen Anzahl von Clustern in k-means zu bekommen, ist also gut dokumentiert. Ich habe einen Artikel darüber in Gaußschen Gemischen gefunden, bin mir aber nicht sicher, ob ich davon überzeugt bin, verstehe ihn nicht sehr gut. Gibt es eine ... sanftere Möglichkeit, dies zu tun?
Ich lese ein Buch "Maschinelles Lernen mit Funken" von Nick Pentreath und auf Seite 224-225 diskutiert der Autor über die Verwendung von K-Mitteln als Form der Dimensionsreduktion. Ich habe diese Art der Dimensionsreduktion noch nie gesehen. Hat sie einen Namen oder / und ist sie für bestimmte Datenformen nützlich ? …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.