Ich weiß, dass k-means normalerweise mit Expectation Maximization optimiert wird . Wir könnten jedoch die Verlustfunktion genauso optimieren wie alle anderen!
Ich habe einige Artikel gefunden, die tatsächlich eine stochastische Gradientenabnahme für großräumige k-Mittelwerte verwenden, aber ich konnte meine Frage nicht beantworten.
Weiß jemand, warum das so ist? Liegt es daran, dass die Expectation Maximization schneller konvergiert ? Hat es eine besondere Garantie? Oder ist es ein historischer Grund ?