Mclust Modellauswahl


11

Das R-Paket mclustverwendet BIC als Kriterium für die Auswahl des Clustermodells. Nach meinem Verständnis sollte ein Modell mit dem niedrigsten BIC gegenüber anderen Modellen ausgewählt werden (wenn Sie sich nur für BIC interessieren). Wenn jedoch alle BIC-Werte negativ sind, Mclustwird standardmäßig das Modell mit dem höchsten BIC-Wert verwendet. Mein allgemeines Verständnis aus verschiedenen Versuchen ist, dass mclust"beste" Modelle als solche mit dem .meinx{B.ichC.ich}}

Ich versuche zu verstehen, warum die Autoren diese Entscheidung getroffen haben. Es ist auf der CRAN-Site dargestellt: https://cran.r-project.org/web/packages/mclust/vignettes/mclust.html

Die Autoren der mclustPakete vermerken dies auch in ihrem Artikel Modellbasierte Klassifizierungsmethoden: Verwenden der mclust-Software in Chemometrics auf Seite 5.

Das "beste" Modell wird als das Modell mit dem höchsten BIC unter den angepassten Modellen angesehen.

Kann jemand Licht in dieses Thema bringen? Wenn ein niedrigerer BIC immer besser ist, warum wählen die Autoren dann nicht das Modell mit dem niedrigsten BIC, sondern das Modell mit dem kleinsten absoluten BIC? Wenn möglich, geben Sie Referenzen an.

Antworten:


10

Lösung gefunden:

Um die Frage noch einmal zu wiederholen: Warum verwendet die MclustFunktion standardmäßig das Modell mit dem höchsten BIC-Wert als "bestes" Modell?

Gute Frage! Lassen Sie mich Ihnen eine langatmige Antwort darauf geben.

TL; DR : BIC-Werte sind eine Annäherung an die integrierte (nicht maximale) Wahrscheinlichkeit, und Sie möchten das Modell mit der größten integrierten Wahrscheinlichkeit (Bayes-Faktor), also wählen Sie das Modell mit der größten BIC.

Lange Antwort : Der Zweck der Verwendung von modellbasiertem Clustering gegenüber heuristischen Clustering-Ansätzen wie k-means und hierarchischem (agglomerativem) Clustering besteht darin, einen formaleren und intuitiveren Ansatz für den Vergleich und die Auswahl eines geeigneten Clustermodells für Ihre Daten bereitzustellen.

Mclust verwendet Clustering-Techniken basierend auf Wahrscheinlichkeitsmodellen, Gaußschen gemischten Modellen. Die Verwendung von Wahrscheinlichkeitsmodellen ermöglicht die Entwicklung modellbasierter Ansätze zum Vergleich verschiedener Clustermodelle und -größen. Weitere Informationen finden Sie unter * Modellbasierte Klassifizierungsmethoden: Verwenden der mclust-Software in Chemometrics * ( https://www.jstatsoft.org/article/view/v018i06 ).

Wie oben erwähnt, geben die Autoren an, dass das "beste" Modell eines mit den größten BIC-Werten ist. Hier ist ein weiteres Beispiel aus der Software Enhanced Model-Based Clustering, Density Estimation und Discriminant Analysis: MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):

Das Baysian Information Criterion oder BIC (?) Ist der Wert der maximierten Loglikelihood mit einer Strafe für die Anzahl der Parameter im Modell und ermöglicht den Vergleich von Modellen mit unterschiedlichen Parametrisierungen und / oder unterschiedlichen Anzahlen von Clustern. Im Allgemeinen ist die Evidenz für das Modell und die Anzahl der Cluster umso stärker, je größer der Wert des BIC ist (siehe z. B. Fraley und Raftery 2002a).

Modellauswahl : Nachdem den Clustern ein Wahrscheinlichkeitsmodell zugeordnet ist, können Sie mithilfe komplexerer Tools mehrere Clustermodelle mithilfe der Bayes'schen Modellauswahl über Bayes-Faktoren vergleichen.

In ihrer Arbeit, Wie viele Cluster? Welche Clustering-Methode? Antworten über modellbasierte Clusteranalyse ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )

Der Bayes-Faktor ist die hintere Wahrscheinlichkeit für ein Modell gegen das andere, vorausgesetzt, keines wird a priori bevorzugt. Banfield und Raftery [2] verwendeten eine heuristisch abgeleitete Annäherung an den doppelten log Bayes-Faktor, den so genannten "AWE", um die Anzahl der Cluster in hierarchischen Clustern basierend auf der Klassifizierungswahrscheinlichkeit zu bestimmen. Wenn EM verwendet wird, um die maximale Mischungswahrscheinlichkeit zu ermitteln, gilt eine zuverlässigere Annäherung an das Doppelte des logarithmischen Bayes-Faktors, der als BIC (Schwarz [32]) bezeichnet wird:

2Log(p(x|M.))+cÖnsteinnt2lM.(x,θ^)- -mmlÖG(n)B.ichC.

p(x|M.)lM.(x,θ^)ein prichÖrichp(x|M.)M.

Zusammenfassend sollte der BIC also nicht minimiert werden. Die Person, die diesen modellbasierten Clustering-Ansatz verwendet, sollte nach dem Modell suchen, das den BIC maximiert, da es den Bayes-Faktor mit maximaler integrierter Wahrscheinlichkeit approximiert.

Diese letzte Aussage hat auch einen Verweis:

Banfield, JD und Raftery, AE (1993) Modellbasierte Gaußsche und nicht-Gaußsche Clusterbildung. Biometrics, 49, 803–821.

BEARBEITEN : Basierend auf einem E-Mail-Austausch,

Überprüfen Sie als Randnotiz immer, wie der BIC definiert ist. Manchmal, zum Beispiel in den meisten Regressionskontexten (wo traditionell eine Statistik für die Parameterschätzung minimiert wird, z. B. Restsumme der Quadrate, Abweichung usw.), wird der BIC als -2 * loglik + npar * log (n) berechnet, dh umgekehrt was wird in mclust verwendet. In diesem Fall sollte der BIC eindeutig minimiert werden.

Die allgemeine Definition des BIC lautet B.ichC.=- -2×ln(L.(θ|x))+k×ln(n)


1
Ich bin mir nicht sicher, auf welche Version von Mclust die E-Mail-Korrespondenz dieser Antwort bezogen war. Die Version 4 von Mclust verwendet die negative Komponente von BIC und sollte daher maximiert werden. Ich hoffe, es kann nützlich sein für Leute, die herausfinden wollen, ob eine Maximierung oder eine Minimierung durchgeführt werden sollte.
Rasika

Vielen Dank, dass Sie darauf hingewiesen haben. Ich werde diese Frage so aktualisieren, dass sie sinnvoll ist. Ich könnte auch in die Dokumentation schauen, um zu sehen, warum sie sich nach so vielen Jahren für diese Änderung entschieden haben
Jon
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.