Ich denke, Sie haben in der Frage im Grunde den Nagel auf den Kopf getroffen, aber ich werde sehen, ob ich trotzdem etwas hinzufügen kann. Ich werde das auf eine Art Umweg beantworten ...
Das Feld der robusten Statistik untersucht die Frage, was zu tun ist, wenn die Gaußsche Annahme fehlschlägt (in dem Sinne, dass es Ausreißer gibt):
es wird oft angenommen, dass die Datenfehler normalverteilt sind, zumindest annähernd, oder dass der zentrale Grenzwertsatz verwendet werden kann, um normalverteilte Schätzungen zu erstellen. Wenn die Daten Ausreißer enthalten, haben klassische Methoden leider oft eine sehr schlechte Leistung
Diese wurden auch in ML angewendet, zum Beispiel in Mika el al. (2001) Ein mathematischer Programmieransatz zum Kernel-Fisher-Algorithmus , der beschreibt, wie Hubers Robust Loss mit KDFA (zusammen mit anderen Verlustfunktionen) verwendet werden kann. Natürlich ist dies ein Klassifizierungsverlust, aber KFDA ist eng mit der Relevanz-Vektor-Maschine verwandt (siehe Abschnitt 4 des Mika-Papiers).
Wie in der Frage impliziert, besteht ein enger Zusammenhang zwischen Verlustfunktionen und Bayes'schen Fehlermodellen (siehe hier für eine Diskussion).
Es kann jedoch vorkommen, dass die Optimierung schwierig wird, sobald Sie anfangen, "funky" -Dämpfungsfunktionen zu integrieren (beachten Sie, dass dies auch in der Bayes'schen Welt der Fall ist). In vielen Fällen greifen die Benutzer daher auf einfach zu optimierende Standardverlustfunktionen zurück und führen stattdessen eine zusätzliche Vorverarbeitung durch, um sicherzustellen, dass die Daten dem Modell entsprechen.
Der andere Punkt, den Sie erwähnen, ist, dass die CLT nur für Proben gilt, die IID sind. Dies ist wahr, aber dann sind die Annahmen (und die begleitende Analyse) der meisten Algorithmen gleich. Wenn Sie anfangen, Nicht-IID-Daten zu betrachten, werden die Dinge viel kniffliger. Ein Beispiel ist, wenn es eine zeitliche Abhängigkeit gibt. In diesem Fall wird normalerweise davon ausgegangen, dass die Abhängigkeit nur ein bestimmtes Fenster überspannt, und Proben können daher als ungefähr IID außerhalb dieses Fensters betrachtet werden (siehe zum Beispiel dieses brillante, aber harte Papier, Chromatic PAC) -Bayes Bounds für Nicht-IID-Daten: Anwendungen für Rangfolgen und stationäre β-Mischprozesse. Danach kann die normale Analyse angewendet werden.
Also, ja, es kommt zum Teil auf die Bequemlichkeit an und zum Teil, weil in der realen Welt die meisten Fehler (ungefähr) nach Gauß aussehen. Man sollte natürlich immer vorsichtig sein, wenn man sich ein neues Problem ansieht, um sicherzustellen, dass die Annahmen nicht verletzt werden.