Angenommen, wir ersetzen die Verlustfunktion der logistischen Regression (die normalerweise logarithmisch wahrscheinlich ist) durch die MSE. Das heißt, das logarithmische Quotenverhältnis muss immer noch eine lineare Funktion der Parameter sein, aber die Summe der quadratischen Differenzen zwischen der geschätzten Wahrscheinlichkeit und dem Ergebnis (codiert als 0/1) minimieren:
und minimiere anstelle von ∑ [ y i log p i + ( 1 - y i ) log ( 1 - p i ) ] .
Natürlich verstehe ich, warum die Log-Wahrscheinlichkeit unter bestimmten Voraussetzungen sinnvoll ist. Aber was ist der intuitive Grund, warum die MSE beim maschinellen Lernen, bei dem normalerweise keine Annahmen getroffen werden, völlig unvernünftig ist? (Oder gibt es Situationen, in denen MSE sinnvoll sein könnte?)