Latent Class Analysis vs. Cluster Analysis - Unterschiede in den Schlussfolgerungen?


30

Was sind die Unterschiede in den Schlussfolgerungen, die aus einer Latent Class Analysis (LCA) gegenüber einer Cluster-Analyse gezogen werden können? Ist es richtig, dass eine Ökobilanz eine zugrunde liegende latente Variable annimmt, die zu den Klassen führt, während die Clusteranalyse eine empirische Beschreibung von korrelierten Attributen aus einem Clustering-Algorithmus ist? Es scheint, dass die Ökobilanz in den Sozialwissenschaften an Popularität gewonnen hat und als methodisch überlegen gilt, da sie einen formalen Chi-Quadrat-Signifikanztest hat, den die Clusteranalyse nicht durchführt.

Es wäre großartig, wenn Beispiele in Form von "LCA wäre dafür geeignet (aber nicht Clusteranalyse), und Clusteranalyse wäre dafür geeignet (aber nicht latente Klassenanalyse).

Vielen Dank! Brian


1
Was nennen Sie inferencesin diesem Zusammenhang und warum interessieren Sie nur Unterschiede in der Folgerung?
TTNPHNS

1
@ttnphns Mit Schlussfolgerungen meine ich die inhaltliche Interpretation der Ergebnisse. Ich bin mir nicht sicher über den letzten Teil Ihrer Frage zu meinem Interesse an "nur Unterschieden in Schlussfolgerungen?" Ich bin nicht an der Ausführung ihrer jeweiligen Algorithmen oder der zugrunde liegenden Mathematik interessiert. Mich interessiert, wie die Ergebnisse interpretiert werden.
Brian P

Antworten:


27

Die latente Klassenanalyse ist in der Tat ein endliches Mischungsmodell (vgl hier ). Der Hauptunterschied zwischen FMM und anderen Clustering-Algorithmen besteht darin, dass Ihnen FMM einen "modellbasierten Clustering" -Ansatz bietet, bei dem Cluster mithilfe eines Wahrscheinlichkeitsmodells abgeleitet werden, das die Verteilung Ihrer Daten beschreibt. Anstatt also Cluster mit einem willkürlich gewählten Entfernungsmaß zu finden, verwenden Sie ein Modell, das die Verteilung Ihrer Daten beschreibt, und beurteilen anhand dieses Modells die Wahrscheinlichkeiten, dass bestimmte Fälle Mitglieder bestimmter latenter Klassen sind. Sie können also sagen, dass dies ein Top-Down-Ansatz ist (Sie beginnen mit der Beschreibung der Verteilung Ihrer Daten), während andere Cluster-Algorithmen eher Bottom-Up-Ansätze sind (Sie finden Ähnlichkeiten zwischen Fällen).

Weil Sie für Ihre Datenmodellauswahl ein statistisches Modell verwenden und die Anpassungsgüte beurteilen, ist dies im Gegensatz zur Clusterbildung möglich. Wenn Sie davon ausgehen, dass es einen Prozess oder eine "latente Struktur" gibt, die der Struktur Ihrer Daten zugrunde liegt, scheinen FMMs eine geeignete Wahl zu sein, da Sie die latente Struktur hinter Ihren Daten modellieren können (anstatt nur nach Ähnlichkeiten zu suchen).

Ein weiterer Unterschied besteht darin, dass FMMs flexibler sind als Clustering. Clustering-Algorithmen führen nur Clustering durch, während es FMM- und LCA-basierte Modelle gibt

  • Ermöglichen es Ihnen, bestätigende Analysen zwischen Gruppen durchzuführen.
  • Item Response Theory (und andere) Modelle mit LCA kombinieren,
  • Kovariaten einbeziehen, um die latente Klassenzugehörigkeit der Individuen vorherzusagen,
  • und / oder sogar clusterinterne Regressionsmodelle in der latenten Klassenregression ,
  • Ermöglichen es Ihnen, Änderungen in der Struktur Ihrer Daten usw. im Laufe der Zeit zu modellieren.

Weitere Beispiele finden Sie unter:

Hagenaars JA & McCutcheon, AL (2009). Angewandte latente Klassenanalyse. Cambridge University Press.

und die Dokumentation von Flexmix- und PoLCA- Paketen in R, einschließlich der folgenden Papiere:

Linzer, DA & Lewis, JB (2011). poLCA: Ein R-Paket für die Analyse polytomer variabler latenter Klassen.Journal of Statistical Software, 42 (10), 1-29.

Leisch, F. (2004). Flexmix: Ein allgemeiner Rahmen für endliche Mischungsmodelle und latente Glasregression in R. Journal of Statistical Software, 11 (8), 1-18.

Grün, B. & Leisch, F. (2008). FlexMix Version 2: Endliche Mischungen mit begleitenden Variablen und variierenden und konstanten Parametern . Journal of Statistical Software, 28 (4), 1-35.


3

Ein latentes Klassenmodell (oder ein latentes Profilmodell oder allgemeiner ein Modell mit endlichen Gemischen) kann als probablistisches Modell für die Clusterbildung (oder unbeaufsichtigte Klassifizierung) angesehen werden. Das Ziel ist im Allgemeinen dasselbe - homogene Gruppen innerhalb einer größeren Population zu identifizieren. Ich denke, die Hauptunterschiede zwischen latenten Klassenmodellen und algorithmischen Ansätzen zum Clustering bestehen darin, dass sich erstere offensichtlich für theoretischere Spekulationen über die Natur des Clusterings eignen. und weil das latente Klassenmodell wahrscheinlich ist, bietet es zusätzliche Alternativen zur Beurteilung der Modellanpassung über die Wahrscheinlichkeitsstatistik und erfasst / behält die Unsicherheit bei der Klassifizierung besser bei.

Möglicherweise finden Sie in diesem Thread einige nützliche Kleinigkeiten sowie diese Antwort auf einen verwandten Beitrag von chl.

Darüber hinaus gibt es Parallelen (auf konzeptioneller Ebene) mit dieser Frage zu PCA vs Faktoranalyse, und diese auch.


2

Der Unterschied besteht darin, dass bei der latenten Klassenanalyse ausgeblendete Daten (normalerweise Assoziationsmuster in den Features) verwendet werden, um Wahrscheinlichkeiten für Features in der Klasse zu bestimmen. Dann können Rückschlüsse mit maximaler Wahrscheinlichkeit gezogen werden, um Elemente basierend auf ihren Merkmalen in Klassen zu unterteilen.

Die Clusteranalyse zeichnet die Features auf und verwendet Algorithmen wie die nächstgelegenen Nachbarn, die Dichte oder die Hierarchie, um zu bestimmen, zu welchen Klassen ein Element gehört.

Grundsätzlich kann LCA-Inferenz als "Was sind die ähnlichsten Muster unter Verwendung der Wahrscheinlichkeit" und Cluster-Analyse als "Was ist das Nächste unter Verwendung der Entfernung" betrachtet werden.


Können Sie klarstellen, worauf sich "Ding" in der Aussage zur Clusteranalyse bezieht? Ist es das nächstgelegene 'Merkmal' basierend auf einem Entfernungsmaß?
Brian P

Dies wäre ein Objekt oder welche Daten Sie auch immer mit den Merkmalparametern eingeben.
ccsv
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.