In Ian Goodfellows Deep Learning- Buch steht das geschrieben
Manchmal ist die Verlustfunktion, die uns tatsächlich am Herzen liegt (z. B. Klassifizierungsfehler), nicht effizient zu optimieren. Beispielsweise ist eine genaue Minimierung des erwarteten 0-1-Verlusts selbst für einen linearen Klassifizierer normalerweise nicht möglich (exponentiell in der Eingabedimension). In solchen Situationen optimiert man normalerweise stattdessen eine Ersatzverlustfunktion, die als Proxy fungiert, aber Vorteile hat.
Warum ist ein 0-1-Verlust unlösbar oder wie ist er in den Eingabedimensionen exponentiell?