Als «clustering» getaggte Fragen

Die Clusteranalyse ist die Aufgabe, Daten gemäß ihrer gegenseitigen "Ähnlichkeit" in Teilmengen von Objekten zu partitionieren, ohne bereits vorhandenes Wissen wie Klassenbezeichnungen zu verwenden. [Clustered-Standard-Fehler und / oder Cluster-Beispiele sollten als solche gekennzeichnet werden. Verwenden Sie NICHT das "Clustering" -Tag für sie.]

2
Chinesischer Restaurantprozess (CRP)
Ich versuche, den chinesischen Restaurantprozess (CRP) und den gewichteten chinesischen Restaurantprozess (WCRP) zu verstehen, die in einem Forschungsbericht "Automatische Entdeckung kognitiver Fähigkeiten" beschrieben sind - Robert V. Lindsey, Mohammad Khajah, Michael C. Mozer zur Verbesserung der Vorhersage von Schüler lernen. In CRP wird bei allen Implementierungen (vgl. Unendliche Mischungsmodelle mit …

1
Warum werden die meisten meiner Punkte mit DBSCAN als Rauschen eingestuft?
Ich verwende mehrere Clustering-Algorithmen von sklearn, um einige Daten zu clustern, und kann anscheinend nicht herausfinden, was mit DBSCAN passiert. Meine Daten sind eine Dokument-Term-Matrix von TfidfVectorizer mit einigen hundert vorverarbeiteten Dokumenten. Code: tfv = TfidfVectorizer(stop_words=STOP_WORDS, tokenizer=StemTokenizer()) data = tfv.fit_transform(dataset) db = DBSCAN(eps=eps, min_samples=min_samples) result = db.fit_predict(data) svd = TruncatedSVD(n_components=2).fit_transform(data) …

2
Generieren eines hochdimensionalen Datensatzes, bei dem der nächste Nachbar bedeutungslos wird
In der Zeitung " Wann ist 'Nächster Nachbar' sinnvoll? " Lesen wir das: Wir zeigen, dass sich unter bestimmten allgemeinen Bedingungen (in Bezug auf Daten- und Abfrageverteilungen oder Arbeitsbelastung) mit zunehmender Dimensionalität die Entfernung zum nächsten Nachbarn der Entfernung zum entferntesten Nachbarn nähert. Mit anderen Worten, der Kontrast in Abständen …

2
K-bedeutet: Warum minimiert die Minimierung von WCSS die Entfernung zwischen Clustern?
Aus konzeptioneller und algorithmischer Sicht verstehe ich, wie K-means funktioniert. Aus mathematischer Sicht verstehe ich jedoch nicht, warum das Minimieren des WCSS (Quadratsummen innerhalb des Clusters) notwendigerweise den Abstand zwischen Clustern maximiert . Mit anderen Worten, kann jemand zeigen, wie diese Funktion der Maximierung des Abstands zwischen Clustern entspricht? Es …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.