Hintergrund : Ich möchte die Wohngebiete einer Stadt anhand ihrer sozioökonomischen Merkmale in Gruppen einteilen, z. B. Dichte der Wohneinheiten, Bevölkerungsdichte, Grünfläche, Wohnungspreis, Anzahl der Schulen / Gesundheitszentren / Kindertagesstätten usw. Ich möchte verstehen, in wie viele verschiedene Gruppen die Wohngebiete unterteilt werden können und was ihre einzigartigen Merkmale sind. Diese Informationen könnten die Stadtplanung erleichtern.
Anhand einiger Beispiele (vgl. Diesen Blog-Beitrag: PCA und K-Means-Clustering von Delta-Flugzeugen ) habe ich herausgefunden, wie die Analyse durchgeführt werden kann:
Führen Sie zuerst eine PCA-Analyse durch.
Bestimmen Sie die Anzahl der eindeutigen Gruppen (Cluster) auf der Grundlage der PCA-Ergebnisse (z. B. mithilfe der "Ellbogen" -Methode oder alternativ anhand der Anzahl der Komponenten, die 80 bis 90% der Gesamtvarianz erklären).
Wenden Sie nach der Bestimmung der Anzahl der Cluster k-means-Cluster an, um die Klassifizierung durchzuführen.
Meine Fragen: Es schien, dass die Anzahl der PCA-Komponenten mit der Clusteranalyse zusammenhängt. Stimmt das? Wenn wir beispielsweise feststellen würden, dass 5 PCA-Komponenten mehr als 90% der Variation aller Features erklären, würden wir k-means-Clustering anwenden und 5 Cluster erhalten. Würden die 5 Gruppen genau den 5 Komponenten in der PCA-Analyse entsprechen?
Mit anderen Worten, ich denke meine Frage ist: Was ist der Zusammenhang zwischen der PCA-Analyse und dem k-means Clustering?
Updates: Dank Emre, xeon und Kirills Eingaben. Also die aktuellen Antworten:
Das Ausführen von PCA vor der Clusteranalyse ist auch nützlich, um die Dimensionalität als Feature-Extraktor zu reduzieren und Cluster zu visualisieren / aufzudecken.
Wenn Sie PCA nach dem Clustering ausführen, kann der Clustering-Algorithmus validiert werden (Referenz: Kernel-Hauptkomponentenanalyse ).
PCA wird manchmal angewendet, um die Dimensionalität des Datensatzes vor dem Clustering zu reduzieren. Yeung & Ruzzo (2000) zeigten jedoch, dass das Clustering mit den PCs anstelle der ursprünglichen Variablen nicht unbedingt die Clusterqualität verbessert. Insbesondere erfassen die ersten wenigen PCs (die die meisten Variationen in den Daten enthalten) nicht unbedingt den größten Teil der Clusterstruktur.
- Yeung, Ka Yee und Walter L. Ruzzo. Eine empirische Studie zur Hauptkomponentenanalyse zur Clusterbildung von Genexpressionsdaten. Technischer Bericht, Institut für Informatik und Ingenieurwissenschaften, Universität Washington, 2000. ( pdf )
PCA schien vor einer zweistufigen Clusteranalyse erforderlich zu sein . Basierend auf Ibes (2015), bei dem eine Clusteranalyse unter Verwendung der in der PCA identifizierten Faktoren durchgeführt wurde.
- Ibes, Dorothy C. Eine mehrdimensionale Klassifikations- und Gerechtigkeitsanalyse eines Stadtparksystems: Eine neuartige Methodik und Fallstudienanwendung. Landschafts- und Stadtplanung , Band 137, Mai 2015, Seiten 122–137.