Christopher Bishop definiert den erwarteten Wert der Likelihood-Funktion für das vollständige Datenprotokoll (dh unter der Annahme, dass wir sowohl die beobachtbaren Daten X als auch die latenten Daten Z erhalten) wie folgt:
Dabei ist definiert als:
Wie beschrieben, besteht die Idee darin, ein Gaußsches Mischungsmodell zu betrachten, bei dem die Kovarianzmatrizen der Mischungskomponenten durch , wobei ein Varianzparameter ist, der von allen Komponenten gemeinsam genutzt wird, wie z Das:
und so ist jetzt definiert als:
Das Argument ist jetzt das folgende:
Wenn wir die Grenze , sehen wir im Nenner den Term, für den ist am kleinsten, geht am auf Null, und daher gehen die Verantwortlichkeiten für den Datenpunkt bis auf Term j alle auf Null. für die die Verantwortung zur Einheit geht. Somit erhalten wir in dieser Grenze eine harte Zuordnung von Datenpunkten zu Clustern, genau wie im Mittel-Algorithmus, so dass
Dabei ist definiert als:
Meine Frage ist, wie das obige Argument gilt? Was bedeutet es nämlich, wenn ein Begriff auf Null geht ? Und wie führt das Setzen des Limits in Gleichung zu einer binären Verantwortung?