Lösung gefunden:
Um die Frage noch einmal zu wiederholen: Warum verwendet die Mclust
Funktion standardmäßig das Modell mit dem höchsten BIC-Wert als "bestes" Modell?
Gute Frage! Lassen Sie mich Ihnen eine langatmige Antwort darauf geben.
TL; DR : BIC-Werte sind eine Annäherung an die integrierte (nicht maximale) Wahrscheinlichkeit, und Sie möchten das Modell mit der größten integrierten Wahrscheinlichkeit (Bayes-Faktor), also wählen Sie das Modell mit der größten BIC.
Lange Antwort : Der Zweck der Verwendung von modellbasiertem Clustering gegenüber heuristischen Clustering-Ansätzen wie k-means und hierarchischem (agglomerativem) Clustering besteht darin, einen formaleren und intuitiveren Ansatz für den Vergleich und die Auswahl eines geeigneten Clustermodells für Ihre Daten bereitzustellen.
Mclust verwendet Clustering-Techniken basierend auf Wahrscheinlichkeitsmodellen, Gaußschen gemischten Modellen. Die Verwendung von Wahrscheinlichkeitsmodellen ermöglicht die Entwicklung modellbasierter Ansätze zum Vergleich verschiedener Clustermodelle und -größen. Weitere Informationen finden Sie unter * Modellbasierte Klassifizierungsmethoden: Verwenden der mclust-Software in Chemometrics * ( https://www.jstatsoft.org/article/view/v018i06 ).
Wie oben erwähnt, geben die Autoren an, dass das "beste" Modell eines mit den größten BIC-Werten ist. Hier ist ein weiteres Beispiel aus der Software Enhanced Model-Based Clustering, Density Estimation und Discriminant Analysis: MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):
Das Baysian Information Criterion oder BIC (?) Ist der Wert der maximierten Loglikelihood mit einer Strafe für die Anzahl der Parameter im Modell und ermöglicht den Vergleich von Modellen mit unterschiedlichen Parametrisierungen und / oder unterschiedlichen Anzahlen von Clustern. Im Allgemeinen ist die Evidenz für das Modell und die Anzahl der Cluster umso stärker, je größer der Wert des BIC ist (siehe z. B. Fraley und Raftery 2002a).
Modellauswahl : Nachdem den Clustern ein Wahrscheinlichkeitsmodell zugeordnet ist, können Sie mithilfe komplexerer Tools mehrere Clustermodelle mithilfe der Bayes'schen Modellauswahl über Bayes-Faktoren vergleichen.
In ihrer Arbeit, Wie viele Cluster? Welche Clustering-Methode? Antworten über modellbasierte Clusteranalyse ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )
Der Bayes-Faktor ist die hintere Wahrscheinlichkeit für ein Modell gegen das andere, vorausgesetzt, keines wird a priori bevorzugt. Banfield und Raftery [2] verwendeten eine heuristisch abgeleitete Annäherung an den doppelten log Bayes-Faktor, den so genannten "AWE", um die Anzahl der Cluster in hierarchischen Clustern basierend auf der Klassifizierungswahrscheinlichkeit zu bestimmen. Wenn EM verwendet wird, um die maximale Mischungswahrscheinlichkeit zu ermitteln, gilt eine zuverlässigere Annäherung an das Doppelte des logarithmischen Bayes-Faktors, der als BIC (Schwarz [32]) bezeichnet wird:
2 log( p ( x | M.) ) + c o n s t a n t ≈ 2 lM.( x , θ^) - mml o g( n ) ≡ B I.C.
p ( x | M.)lM.( x , θ^)a p r i o r i p ( x | M.)M.
Zusammenfassend sollte der BIC also nicht minimiert werden. Die Person, die diesen modellbasierten Clustering-Ansatz verwendet, sollte nach dem Modell suchen, das den BIC maximiert, da es den Bayes-Faktor mit maximaler integrierter Wahrscheinlichkeit approximiert.
Diese letzte Aussage hat auch einen Verweis:
Banfield, JD und Raftery, AE (1993) Modellbasierte Gaußsche und nicht-Gaußsche Clusterbildung. Biometrics, 49, 803–821.
BEARBEITEN : Basierend auf einem E-Mail-Austausch,
Überprüfen Sie als Randnotiz immer, wie der BIC definiert ist. Manchmal, zum Beispiel in den meisten Regressionskontexten (wo traditionell eine Statistik für die Parameterschätzung minimiert wird, z. B. Restsumme der Quadrate, Abweichung usw.), wird der BIC als -2 * loglik + npar * log (n) berechnet, dh umgekehrt was wird in mclust verwendet. In diesem Fall sollte der BIC eindeutig minimiert werden.
Die allgemeine Definition des BIC lautet
B ichC.= - 2 × L n ( L ( & thgr; | x ) ) + k × l n ( n )