Welche Beziehung besteht zwischen k-means Clustering und PCA?

61

Es ist gängige Praxis, PCA (Principal Component Analysis) vor einem Clustering-Algorithmus (z. B. k-means) anzuwenden. Es wird angenommen, dass es die Clustering-Ergebnisse in der Praxis verbessert (Rauschunterdrückung).

Ich bin jedoch an einer vergleichenden und eingehenden Untersuchung der Beziehung zwischen PCA und k-means interessiert. Zum Beispiel Chris Ding und Xiaofeng Sich, 2004 K-Means - Clustering über Component Analysis Haupt zeigte , dass „Hauptkomponenten die kontinuierlichen Lösungen für die diskreten Cluster - Mitgliedschaft Indikatoren für K-Means - Clustering sind“. Es fällt mir jedoch schwer, dieses Papier zu verstehen, und Wikipedia behauptet tatsächlich , dass es falsch ist .

Die Ergebnisse der beiden Methoden unterscheiden sich auch in dem Sinne, dass PCA dazu beiträgt, die Anzahl der "Merkmale" zu reduzieren, während die Varianz erhalten bleibt, während Clustering die Anzahl der "Datenpunkte" reduziert, indem mehrere Punkte nach ihren Erwartungen / Mitteln zusammengefasst werden (im Fall von k-means). Wenn der Datensatz also aus Punkten mit jeweils Merkmalen besteht, zielt PCA darauf ab, die Merkmale zu komprimieren, während Clustering darauf abzielt, die Datenpunkte zu komprimieren . $N$ $T$ $T$ $N$

Ich bin auf der Suche nach einem Laien, der die Zusammenhänge zwischen diesen beiden Techniken erklärt.

clustering pca k-means

— mic
quelle

2

Clustering kann auch als Feature-Reduktion betrachtet werden. Wobei Sie jedes Sample durch seine Clusterzuordnung ausdrücken oder spärlich codieren (reduzieren Sie daher auf ). Beide Ansätze halten die Anzahl der Datenpunkte konstant, während die "Merkmals" -Dimensionen reduziert werden.

T

$T$

k

$k$

— Jeff

73

Es ist richtig, dass K-means Clustering und PCA sehr unterschiedliche Ziele zu haben scheinen und auf den ersten Blick nicht miteinander verwandt zu sein scheinen. Wie in der Veröffentlichung von Ding & He aus dem Jahr 2004 erläutert , besteht jedoch eine tiefe Verbindung zwischen K-means Clustering über die Hauptkomponentenanalyse .

Die Intuition ist, dass PCA versucht, alle Datenvektoren als Linearkombinationen einer kleinen Anzahl von Eigenvektoren darzustellen , und den mittleren quadratischen Rekonstruktionsfehler minimiert. Im Gegensatz dazu versucht K-means, alle Datenvektoren über eine kleine Anzahl von Clusterzentroiden darzustellen, dh sie als lineare Kombinationen einer kleinen Anzahl von Clusterzentroidvektoren darzustellen, wobei die linearen Kombinationsgewichte mit Ausnahme der einzelnen alle Null sein müssen . Dies geschieht auch, um den Rekonstruktionsfehler im mittleren Quadrat zu minimieren. $n$ $n$ $1$

K-means kann also als superdünne PCA angesehen werden.

Was Ding & He Papier tut, ist es, diesen Zusammenhang genauer zu machen.

Leider enthält das Ding & He-Papier (bestenfalls) einige schlampige Formulierungen und kann leicht missverstanden werden. Zum Beispiel könnte es scheinen, dass Ding & He behauptet haben, dass Cluster-Schwerpunkte der K-Mittelwert-Cluster-Lösung im -dimensionalen PCA-Unterraum liegen: $(K-1)$

Satz 3.3. Der Cluster-Schwerpunkt-Unterraum wird von den ersten Hauptrichtungen [...] überspannt . $K-1$

Für würde dies bedeuten, dass die Projektionen auf der PC1-Achse für einen Cluster negativ und für einen anderen Cluster positiv sind, dh die PC2-Achse trennt die Cluster perfekt. $K=2$

Dies ist entweder ein Fehler oder ein schlampiges Schreiben. In jedem Fall ist diese Behauptung wörtlich genommen falsch.

Beginnen wir mit der Betrachtung einiger Spielzeugbeispiele in 2D für . Ich habe einige Samples aus den beiden Normalverteilungen mit der gleichen Kovarianzmatrix aber unterschiedlichen Mittelwerten generiert. Ich habe dann sowohl K-means als auch PCA ausgeführt. Die folgende Abbildung zeigt das Streudiagramm der obigen Daten und die gleichen Daten, die gemäß der nachstehenden K-Mittel-Lösung gefärbt sind. Ich zeige auch die erste Hauptrichtung als schwarze Linie und Klassenschwerpunkte, die mit K-Mitteln mit schwarzen Kreuzen gefunden wurden. Die PC2-Achse ist mit der gestrichelten schwarzen Linie dargestellt. K-means wurde mal mit zufälligen Samen wiederholt , um die Konvergenz zum globalen Optimum sicherzustellen. $K=2$ $100$

Man kann deutlich sehen, dass die Klassenschwerpunkte zwar der ersten PC-Richtung ziemlich nahe kommen, aber nicht genau darauf zutreffen. Auch wenn die PC2-Achse die Cluster in den Unterplänen 1 und 4 perfekt trennt, befinden sich in den Unterplänen 2 und 3 einige Punkte auf der falschen Seite.

Die Übereinstimmung zwischen K-means und PCA ist also ziemlich gut, aber nicht genau.

Was hat Ding & He also bewiesen? Der Einfachheit halber werde ich nur den Fall . Die Anzahl der jedem Cluster zugewiesenen Punkte sei und und die Gesamtanzahl der Punkte . Definieren wir nach Ding & He den Cluster-Indikatorvektor wie folgt: wenn Punkte zu Cluster 1 gehören und wenn es zu Cluster 2 gehört. Der Clusterindikatorvektor hat die Einheitslänge und ist "zentriert", dh seine Elemente summieren sich zu Null . $K=2$ $n_1$ $n_2$ $n=n_1+n_2$ $\mathbf q\in\mathbb R^n$ $q_i = \sqrt{n_2/nn_1}$ $i$ $q_i = -\sqrt{n_1/nn_2}$ $\|\mathbf q\| = 1$ $\sum q_i = 0$

Ding & He zeigen, dass die K- -Verlustfunktion (der K- -Algorithmus minimiert) äquivalent umgeschrieben werden kann als , wobei die Gramm-Matrix von Skalarprodukten zwischen allen Punkten ist: , wobei die Datenmatrix ist und ist die zentrierte Datenmatrix. $\sum_k \sum_i (\mathbf x_i - \boldsymbol \mu_k)^2$ $-\mathbf q^\top \mathbf G \mathbf q$ $\mathbf G$ $n\times n$ $\mathbf G = \mathbf X_c^\top \mathbf X_c$ $\mathbf X$ $n\times 2$ $\mathbf X_c$

(Hinweis: Ich verwende eine Schreibweise und Terminologie, die sich geringfügig von ihrer Arbeit unterscheidet, die ich jedoch klarer finde.)

Die K-Mittel-Lösung ist also ein zentrierter Einheitsvektor, der maximiert . Es ist leicht zu zeigen, dass die erste Hauptkomponente (wenn normalisiert, um eine Einheitssumme von Quadraten zu haben) der führende Eigenvektor der Gram-Matrix ist, dh es ist auch ein zentrierter Einheitsvektor maximiert . Der einzige Unterschied besteht darin, dass nur zwei unterschiedliche Werte haben darf, während diese Einschränkung nicht hat. $\mathbf q$ $\mathbf q^\top \mathbf G \mathbf q$ $\mathbf p$ $\mathbf p^\top \mathbf G \mathbf p$ $\mathbf q$ $\mathbf p$

Mit anderen Worten, K-Mittel und PCA maximieren die gleiche Zielfunktion , mit dem einzigen Unterschied, dass K-Mittel eine zusätzliche "kategoriale" Einschränkung aufweist.

Es liegt auf der Hand, dass die K-Mittelwert-Lösung (eingeschränkt) und die PCA-Lösung (nicht eingeschränkt) in den meisten Fällen ziemlich nahe beieinander liegen, wie wir oben in der Simulation gesehen haben, aber man sollte nicht erwarten, dass sie identisch sind. Wenn Sie und alle negativen Elemente auf und alle positiven Elemente auf im Allgemeinen nicht genau . $\mathbf p$ $-\sqrt{n_1/nn_2}$ $\sqrt{n_2/nn_1}$ $\mathbf q$

Ding & Er scheinen dies gut zu verstehen, weil sie ihren Satz wie folgt formulieren:

Satz 2.2. Für K-bedeutet Clustering mit ist die kontinuierliche Lösung des Clusterindikatorvektors die [erste] Hauptkomponente $K= 2$

Beachten Sie die Wörter "kontinuierliche Lösung". Nach diesem Satz beweisen , kommentieren sie zusätzlich , dass PCA verwendet werden kann K-Means - Iterationen zu initialisieren , den vorgegebenen Gesamt Sinn macht , dass wir erwarten , dass nahe zu sein . Die Iterationen müssen jedoch noch durchgeführt werden, da sie nicht identisch sind. $\mathbf q$ $\mathbf p$

Dann entwickelt Ding & He jedoch eine allgemeinere Behandlung für und formuliert am Ende Satz 3.3 als $K>2$

Satz 3.3. Der Cluster-Schwerpunkt-Unterraum wird von den ersten Hauptrichtungen [...] überspannt . $K-1$

Ich habe die Mathematik von Abschnitt 3 nicht durchgearbeitet, aber ich glaube, dass sich dieser Satz tatsächlich auch auf die "kontinuierliche Lösung" von K-means bezieht, dh seine Aussage sollte lauten "Cluster-Schwerpunktsraum der kontinuierlichen Lösung von K-means" überspannt [...] ".

Ding & He machen diese wichtige Qualifikation jedoch nicht und schreiben darüber hinaus in ihrer Zusammenfassung, dass

Hier beweisen wir, dass Hauptkomponenten die kontinuierlichen Lösungen für die diskreten Clustermitgliedschaftsindikatoren für K-Mittel-Clustering sind. Gleichermaßen zeigen wir, dass der von den Cluster-Centroiden aufgespannte Unterraum durch spektrale Expansion der bei Termen verkürzten Daten-Kovarianzmatrix gegeben ist . $K-1$

Der erste Satz ist absolut richtig, der zweite nicht. Es ist mir nicht klar, ob dies eine (sehr) schlampige Schrift oder ein echter Fehler ist. Ich habe beiden Autoren sehr höflich eine E-Mail mit der Bitte um Klarstellung gesendet. (Update zwei Monate später: Ich habe noch nie etwas von ihnen gehört.)

Matlab-Simulationscode

figure('Position', [100 100 1200 600])

n = 50;
Sigma = [2 1.8; 1.8 2];

for i=1:4
    means = [0 0; i*2 0];

    rng(42)
    X = [bsxfun(@plus, means(1,:), randn(n,2) * chol(Sigma)); ...
         bsxfun(@plus, means(2,:), randn(n,2) * chol(Sigma))];
    X = bsxfun(@minus, X, mean(X));
    [U,S,V] = svd(X,0);
    [ind, centroids] = kmeans(X,2, 'Replicates', 100);

    subplot(2,4,i)
    scatter(X(:,1), X(:,2), [], [0 0 0])

    subplot(2,4,i+4)
    hold on
    scatter(X(ind==1,1), X(ind==1,2), [], [1 0 0])
    scatter(X(ind==2,1), X(ind==2,2), [], [0 0 1])
    plot([-1 1]*10*V(1,1), [-1 1]*10*V(2,1), 'k', 'LineWidth', 2)
    plot(centroids(1,1), centroids(1,2), 'w+', 'MarkerSize', 15, 'LineWidth', 4)
    plot(centroids(1,1), centroids(1,2), 'k+', 'MarkerSize', 10, 'LineWidth', 2)
    plot(centroids(2,1), centroids(2,2), 'w+', 'MarkerSize', 15, 'LineWidth', 4)
    plot(centroids(2,1), centroids(2,2), 'k+', 'MarkerSize', 10, 'LineWidth', 2)

    plot([-1 1]*5*V(1,2), [-1 1]*5*V(2,2), 'k--')
end

for i=1:8
    subplot(2,4,i)
    axis([-8 8 -8 8])
    axis square
    set(gca,'xtick',[],'ytick',[])
end

— Amöbe sagt Reinstate Monica
quelle

2

Ich habe gerade einen Blick in das Ding & He-Papier geworfen. In Satz 2.2 heißt es, dass, wenn Sie k-means (mit k = 2) einer p-dimensionalen Datenwolke machen und auch PCA (basierend auf Kovarianzen) der Daten durchführen, alle Punkte, die zu Cluster A gehören, negativ und alle sind Punkte, die zu Cluster B gehören, sind bei PC1-Bewertungen positiv. Interessante Aussage, - es sollte in Simulationen getestet werden. Das Problem ist jedoch, dass es eine global optimale K-Mittel-Lösung annimmt, denke ich; Aber woher wissen wir, ob das erreichte Clustering optimal war?

— TTNPHNS

1

@ttnphns, ich habe meine Simulation und Figur aktualisiert, um diese Behauptung genauer zu testen. Wenn die Projektionen auf PC1 für die Klassen A und B positiv und negativ sein sollen, bedeutet dies, dass die PC2-Achse als Grenze zwischen ihnen dienen soll. Dies ist in meinen 4 Spielzeugsimulationen sehr nahe dran, aber in den Beispielen 2 und 3 gibt es ein paar Punkte auf der falschen Seite von PC2. In Bezug auf die Konvergenz habe ich die kmeansFunktion mit 100 Replikationen ausgeführt: Sie wählt jedes Mal eine andere zufällige Initialisierung und wählt dann die beste Lösung aus, sodass hoffentlich sichergestellt werden sollte, dass das globale Optimum erreicht wird.

— Amöbe sagt Reinstate Monica

1

@ttnphns: Ich glaube, ich habe herausgefunden, was los ist. Bitte sehen Sie sich mein Update an.

— Amöbe sagt Reinstate Monica

amoeba, danke, dass du den diskutierten Artikel für uns alle verdaut und deine Schlussfolgerungen geliefert hast (+2); und um mich persönlich zu informieren! Ich werde hoffentlich in ein paar Tagen zurückkommen, um Ihre Antwort zu lesen und zu untersuchen. Aber es jetzt schon zu schätzen.

— TTNPHNS

Hervorragender Beitrag. Gibt es einen Grund, warum Sie Matlab und nicht R verwendet haben? Nur neugierig, weil ich den ML Coursera-Kurs besuche und Andrew Ng im Gegensatz zu R oder Python auch Matlab verwendet. Ist es eine allgemeine ML-Wahl?

— Antoni Parellada

10

PCA und K-means machen verschiedene Dinge.

PCA wird zur Dimensionsreduzierung / Merkmalsauswahl / Repräsentationslernen verwendet, z. B. wenn der Merkmalsraum zu viele irrelevante oder redundante Merkmale enthält. Ziel ist es, die intrinsische Dimensionalität der Daten zu finden.

Hier ist ein zweidimensionales Beispiel, das auf höherdimensionale Räume verallgemeinert werden kann. Der Datensatz hat zwei Features, und , jeder Kreis ist ein Datenpunkt. $x$ $y$

Im Bild hat eine größere Größe als . Dies sind die Eigenvektoren. Die Dimension der Daten wird von zwei Dimensionen auf eine Dimension reduziert (in diesem Fall nicht viel Auswahl) und dies erfolgt durch Projizieren auf die Richtung des Vektors (nach einer Drehung, bei der parallel oder senkrecht zu einer der Achsen wird). . Dies liegt daran, dass orthogonal zur Richtung der größten Varianz ist. Ein Weg, um es sich vorzustellen, ist ein minimaler Informationsverlust. (Es gibt immer noch einen Verlust, da eine Koordinatenachse verloren geht). $v1$ $v2$ $v2$ $v2$ $v2$

K-means ist ein Clustering-Algorithmus, der die natürliche Gruppierung von Datenpunkten basierend auf ihrer Ähnlichkeit zurückgibt. Es ist ein Sonderfall von Gaußschen Mischungsmodellen .

In der Abbildung unten hat der Datensatz drei Dimensionen. Aus dem 3D-Diagramm auf der linken Seite ist ersichtlich, dass die Dimension ohne Informationsverlust „fallengelassen“ werden kann. PCA wird verwendet, um die Daten auf zwei Dimensionen zu projizieren. In der Abbildung links ist auch die Projektionsebene dargestellt. Anschließend können die projizierten Daten mit K-Mitteln versehen werden, um die verschiedenen Gruppen in der Abbildung rechts mit verschiedenen Farben zu kennzeichnen. $X$

PCA- oder andere Dimensionalitätsreduktionstechniken werden vor unbeaufsichtigten oder überwachten Methoden beim maschinellen Lernen verwendet. Zusätzlich zu den von Ihnen und den oben genannten Gründen wird es auch zu Visualisierungszwecken verwendet (Projektion auf 2D oder 3D aus höheren Dimensionen).

In Bezug auf den Artikel glaube ich nicht, dass es irgendeine Verbindung gibt, PCA hat keine Informationen bezüglich der natürlichen Gruppierung von Daten und arbeitet mit den gesamten Daten, nicht mit Teilmengen (Gruppen). Wenn einige Gruppen durch einen Eigenvektor erklärt werden könnten (nur weil dieser bestimmte Cluster entlang dieser Richtung verteilt ist), ist dies nur ein Zufall und sollte nicht als allgemeine Regel angesehen werden.

"PCA zielt darauf ab, die T-Merkmale zu komprimieren, während Clustering darauf abzielt, die N Datenpunkte zu komprimieren."

In der Tat ist die Komprimierung eine intuitive Möglichkeit, über PCA nachzudenken. Um jedoch jeden Punkt relativ zu seinem Cluster zu beschreiben, benötigen Sie in K-means mindestens die gleiche Menge an Informationen (z. B. Dimensionen) , wobei der Abstand ist und gespeichert ist anstelle von . Außerdem müssen Sie speichern, um zu wissen, zu welchem Delta das Verhältnis besteht. Sie können natürlich und speichern, jedoch können Sie die tatsächlichen Informationen in den Daten nicht abrufen. $x_i = d( \mu_i, \delta_i)$ $d$ $\delta_i$ $x_i$ $\mu_i$ $d$ $i$

Clustering fügt wirklich Informationen hinzu. Ich betrachte es als Aufteilung der Daten in natürliche Gruppen (die nicht unbedingt disjunkt sein müssen), ohne zu wissen, was die Bezeichnung für jede Gruppe bedeutet (nun, bis Sie sich die Daten in den Gruppen ansehen).

— Shuriken x blau
quelle

3

Die Art und Weise, wie Ihre PCs im Plot beschriftet sind, scheint mit der entsprechenden Diskussion im Text inkonsistent zu sein. Beachten Sie, dass, obwohl PCA normalerweise auf Spalten angewendet wird, & k = auf Zeilen, beide auf beide angewendet werden können. Ich habe die Zeitung nicht gelesen, aber ich wette, darüber reden sie.

— gung - Wiedereinsetzung von Monica

Tut mir leid, ich meinte die Top-Figur: nämlich die v1 & v2-Labels für die PCs.

— gung - Wiedereinsetzung von Monica

Guter Punkt, es könnte nützlich sein (kann nicht herausfinden, wofür), Gruppen von Datenpunkten zu komprimieren. Finden Sie Gruppen mit k-means, komprimieren Sie Datensätze mit pca in weniger. Was die Gruppierung von Features angeht, könnte dies tatsächlich nützlich sein.

— Shuriken x blau

2

Wollen Sie damit im Wesentlichen sagen, dass das Papier falsch ist? Es heißt ausdrücklich (siehe 3. und 4. Satz in der Zusammenfassung) und behauptet , mathematisch bewiesen zu haben, dass es einen bestimmten Zusammenhang gibt, während Sie sagen, dass es keinen Zusammenhang gibt.

— Amöbe sagt Reinstate Monica

Was ich davon habe: PCA verbessert die Clustering-Lösungen von K-means. Die Verbindung besteht darin, dass die Clusterstruktur in die ersten K - 1 - Hauptkomponenten eingebettet ist. Das ist der Beitrag.

— Shuriken x blau

7

Es ist üblich, Daten vor der Verwendung von k-means aufzuhellen . Der Grund ist, dass k-means extrem skalensensitiv ist und wenn Sie gemischte Attribute haben, es keine "wahre" Skala mehr gibt. Dann müssen Sie Ihre Daten normalisieren, standardisieren oder aufhellen. Keines ist perfekt, aber das Aufhellen beseitigt die globale Korrelation, was manchmal zu besseren Ergebnissen führen kann. PCA / Whitening ist da Sie mit der Kovarianzmatrix arbeiten. $O(n\cdot d^2 + d^3)$

Nach meinem Verständnis ist die Beziehung von k-means zu PCA nicht in den Originaldaten enthalten . Es ist die Verwendung von PCA auf der Distanzmatrix (die Einträge hat, und vollständige PCA ist somit - dh unerschwinglich teuer, insbesondere im Vergleich zu k-Mitteln, die sind wobei der einzige große Term ist) und vielleicht nur für . K-means ist ein Optimierungsproblem der kleinsten Fehlerquadrate, ebenso PCA. k-means versucht, die Partition der kleinsten Quadrate der Daten zu finden. PCA ermittelt den Cluster-Zugehörigkeitsvektor der kleinsten Quadrate. $n^2$ $O(n^2\cdot d+n^3)$ $O(k\cdot n \cdot i\cdot d)$ $n$ $k=2$

Der erste Eigenvektor hat die größte Varianz, daher bedeutet das Aufteilen auf diesen Vektor (der der Clusterzugehörigkeit ähnelt, keine Eingabe von Datenkoordinaten!) Das Maximieren zwischen den Clustervarianzen . Indem Sie die Streuung zwischen den Clustern maximieren, minimieren Sie auch die Streuung innerhalb des Clusters.

Aber für echte Probleme ist dies nutzlos. Es ist nur von theoretischem Interesse.

— Anony-Mousse
quelle

2

Es wäre großartig, eine genauere Erklärung / einen Überblick über das Ding & He-Papier (mit dem das OP verknüpft ist) zu erhalten. Ich kenne es selbst (noch) nicht, habe es aber oft genug erwähnt, um ziemlich neugierig zu sein.

— Amöbe sagt Reinstate Monica

3

Du meinst das ? Ja, ich bin auch darauf gestoßen; Ich denke, das macht mich nur noch verwirrender. Ich hatte gehofft, dass dies der Faden ist, der es für mich klären könnte ... Jetzt, wo ich darüber nachdenke, sollte ich vielleicht ein Kopfgeld darauf ausgeben. Ich glaube nicht, dass ich in den nächsten Tagen Zeit haben werde, dieses Thema selbst zu studieren.

— Amöbe sagt Reinstate Monica

3

Dieser Wiki-Absatz ist sehr seltsam. Es heißt, Ding & He (2001/2004) sei sowohl falsch als auch kein neues Ergebnis! Um zu demonstrieren, dass es nicht neu war, zitiert es eine Arbeit von 2004 (?!). Um zu beweisen, dass es falsch war, wird eine neuere Ausgabe von 2014 zitiert, die Ding & He nicht einmal zitiert. Fischig.

— Amöbe sagt Reinstate Monica

3

Vielleicht nochmal Zitier-Spam. Wikipedia ist voller Eigenwerbung.

— Anony-Mousse

1

Ich glaube, ich habe herausgefunden, was in Ding & He vor sich geht. Bitte sehen Sie meine Antwort. Abgesehen davon ist Ihr Argument über die algorithmische Komplexität nicht ganz richtig, weil Sie die vollständige Eigenvektorzerlegung der Matrix mit der Extraktion von nur K - bedeutet "Komponenten" vergleichen. Das ist kein fairer Vergleich. Wenn Sie einen iterativen Algorithmus für PCA verwenden und nur Komponenten extrahieren , würde ich erwarten, dass er so schnell arbeitet wie K-means. Daher bin ich mir nicht sicher, ob es für echte Probleme und nur für theoretische Fragen von Nutzen ist.

n \times n

$n\times n$

k

$k$

k

$k$

— Amöbe sagt Reinstate Monica

4

Das Lösen des k-Mittels in seiner niedrigrangigen O (k / & egr;) -Näherung (dh das Projizieren auf die Spanne der ersten größten Singularvektoren wie in PCA) würde eine (1 + & egr;) -Näherung in Bezug auf den multiplikativen Fehler ergeben.

Insbesondere würde eine Projektion auf den k-größten Vektor eine 2-Approximation ergeben.

Tatsächlich kann die Summe der quadratischen Abstände für JEDE Menge von k Zentren durch diese Projektion angenähert werden. Dann können wir den Coreset für die reduzierten Daten berechnen, um die Eingabe in Poly (k / eps) -Punkte zu reduzieren, die sich dieser Summe annähern.

Siehe: Dan Feldman, Melanie Schmidt, Christian Sohler: Aus großen Datenmengen kleine Datenmengen machen: Coresets mit konstanter Größe für k-means, PCA und projektives Clustering. SODA 2013: 1434 & ndash; 1453

— Dan Feldman
quelle

3

Intuitive Beziehung von PCA und KMeans

Theoretisch ergibt sich die PCA-Dimensionsanalyse (die erste K-Dimension, bei der 90% der Varianz erhalten bleiben ... muss keine direkte Beziehung zum K-Mittelwert-Cluster haben), der Wert der Verwendung von PCA ergibt sich jedoch aus einer praktischen Überlegung angesichts der Art der Objekte, die Wir analysieren die Tendenz, sich auf natürliche Weise von (einem bestimmten Segment) ihrer Hauptkomponenten (Alter, Geschlecht) zu gruppieren bzw. zu entwickeln. b) PCA eliminiert diese geringe Varianzdimension (Rauschen) und schafft so selbst einen Mehrwert (und einen ähnlichen Sinn wie Clustering) ) durch Fokussierung auf diese Schlüsseldimension In einfachen Worten ist es genau wie die XY-Achse, die uns hilft, jedes abstrakte mathematische Konzept zu meistern, jedoch auf eine fortgeschrittenere Art und Weise.
K Mittel versuchen, die Gesamtentfernung innerhalb eines Clusters für ein gegebenes K zu minimieren
Für eine Reihe von Objekten mit N Dimensionsparametern weisen ähnliche Objekte standardmäßig die MOST-Parameter "ähnlich" auf, mit Ausnahme einiger wichtiger Unterschiede (z. B. eine Gruppe junger IT-Studenten, junger Tänzer, Menschen ... weisen einige sehr ähnliche Merkmale auf (geringe Varianz). Einige der Hauptmerkmale sind jedoch noch recht vielfältig und erfassen im Wesentlichen die meisten Abweichungen, z. B. Farbe, Wohnort .... Daher geringe Verzerrung, wenn diese Merkmale geringfügiger Unterschiede oder die Umrechnung auf vernachlässigt werden Niedrigere PCs verlieren nicht viel Information
Es ist daher „sehr wahrscheinlich“ und „sehr natürlich“, dass eine Gruppierung nach Unterschieden (Variationen) für die Datenauswertung sinnvoll ist (z. B. wenn Sie in einer Woche 1.000 Umfragen auf der Hauptstraße durchführen und diese nach ethnischen Gruppen zusammenfassen) , Alter oder Bildungshintergrund als PC sinnvoll) Im Rahmen der Mission von K Means versuchen wir, eine angemessene Anzahl von K festzulegen, damit diese Gruppenelemente (in einem Cluster) insgesamt den geringsten Abstand (minimiert) zwischen Centroid und den Kosten haben Das Einrichten und Ausführen der K-Cluster ist optimal (jedes Mitglied als Cluster macht keinen Sinn, da dies zu kostspielig und ohne Wert zu warten ist).
K Bedeutet, dass eine Gruppierung leicht „visuell überprüft“ werden kann, um optimal zu sein, wenn diese K den Hauptkomponenten entspricht (z. B. wenn für Menschen unterschiedlichen Alters ethnische / regiöse Gruppen dazu neigen, ähnliche Meinungen auszudrücken, wenn Sie diese Umfragen basierend auf gruppieren) jene PCs, die dann das Minimierungsziel erreichen (Ref. 1). Auch diese PCs (ethnisch, Alter, Religion ..) sind ziemlich oft orthogonal und daher durch Betrachten des PCA visuell verschieden
Dieser intuitive Abzug führt jedoch zu einer ausreichenden, aber nicht notwendigen Bedingung. (Lit. 2: PCA ist eine nützliche Lockerung der k-Mittelwert-Clusterbildung. Dies war jedoch kein neues Ergebnis (siehe z. B. [35]). Gegenbeispiele zur Aussage, dass der Cluster-Schwerpunkt-Unterraum überspannt ist, lassen sich auf einfache Weise aufdecken nach den Hauptrichtungen. [36])

Die Auswahl von Clustern basierend auf / entlang der CPs kann bequem zu einem bequemen Zuweisungsmechanismus führen

Dies könnte ein Beispiel sein, wenn x der erste PC entlang der X-Achse ist: (........... CC1 ............... CC2 ..... ....... CC3 X-Achse), wobei die X-Achse sagt, dass sie über 9X% der Varianz erfasst und sagt, dass dies der einzige PC ist

6. Schließlich wird PCA auch zur Visualisierung nach Abschluss von K Means verwendet (Ref. 4).

Wenn die PCA-Anzeige * unser K-Clustering-Ergebnis orthogonal oder nahe daran ist, ist dies ein Zeichen dafür, dass es sich bei unserem Clustering um eine solide handelt, die jeweils einzigartige Eigenschaften aufweist

(* da per definitionem PCA diese Hauptabmessungen (1D bis 3D) herausfinden / anzeigen, so dass K (PCA) wahrscheinlich einen großen Teil der Varianz erfasst.

Daher ist PCA sowohl zur Visualisierung und Bestätigung einer guten Clusterbildung als auch als wesentliches Element zur Bestimmung der K-Mittel-Clusterbildung nützlich - zur Verwendung vor dem K-Mittel.

Referenz:

https://msdn.microsoft.com/en-us/library/azure/dn905944.aspx
https://en.wikipedia.org/wiki/Principal_component_analysis
CLUSTERING UNTER VERWENDUNG DER PRINZIPALEN KOMPONENTENANALYSE: ANWENDUNG DER AUTONOMIE-BEHINDERUNG ÄLTERER MENSCHEN (Combes & Azema)
http://cs229.stanford.edu/notes/cs229-notes10.pdf Andrew Ng

— r Poon
quelle