Warum nehmen wir an, dass der Fehler normal verteilt ist?


17

Ich frage mich, warum wir bei der Modellierung des Fehlers die Gaußsche Annahme verwenden. In Stanfords ML-Kurs beschreibt Prof. Ng es im Wesentlichen auf zwei Arten:

  1. Es ist mathematisch günstig. (Es hängt mit der Anpassung der kleinsten Quadrate zusammen und ist mit Pseudoinverse leicht zu lösen.)
  2. Aufgrund des zentralen Grenzwertsatzes können wir annehmen, dass es viele zugrunde liegende Tatsachen gibt, die den Prozess beeinflussen, und die Summe dieser einzelnen Fehler tendiert dazu, sich wie bei einer Normalverteilung mit einem Mittelwert von Null zu verhalten. In der Praxis scheint es so zu sein.

Mich interessiert eigentlich der zweite Teil. Der zentrale Grenzwertsatz funktioniert meines Wissens für iid-Samples, aber wir können nicht garantieren, dass die zugrunde liegenden Samples iid sind.

Haben Sie eine Vorstellung von der Gaußschen Annahme des Fehlers?


Über welche Einstellung sprichst du? Klassifikation, Regression oder etwas allgemeineres?
tdc

Ich habe die Frage für den allgemeinen Fall gestellt. Die meisten Geschichten beginnen mit der Gaußschen Fehlerannahme. Mein eigenes Interesse gilt jedoch Matrix-Faktorisierungen und linearen Modelllösungen (sozusagen der Regression).
Petrichor

Antworten:


9

Ich denke, Sie haben in der Frage im Grunde den Nagel auf den Kopf getroffen, aber ich werde sehen, ob ich trotzdem etwas hinzufügen kann. Ich werde das auf eine Art Umweg beantworten ...

Das Feld der robusten Statistik untersucht die Frage, was zu tun ist, wenn die Gaußsche Annahme fehlschlägt (in dem Sinne, dass es Ausreißer gibt):

es wird oft angenommen, dass die Datenfehler normalverteilt sind, zumindest annähernd, oder dass der zentrale Grenzwertsatz verwendet werden kann, um normalverteilte Schätzungen zu erstellen. Wenn die Daten Ausreißer enthalten, haben klassische Methoden leider oft eine sehr schlechte Leistung

Diese wurden auch in ML angewendet, zum Beispiel in Mika el al. (2001) Ein mathematischer Programmieransatz zum Kernel-Fisher-Algorithmus , der beschreibt, wie Hubers Robust Loss mit KDFA (zusammen mit anderen Verlustfunktionen) verwendet werden kann. Natürlich ist dies ein Klassifizierungsverlust, aber KFDA ist eng mit der Relevanz-Vektor-Maschine verwandt (siehe Abschnitt 4 des Mika-Papiers).

Wie in der Frage impliziert, besteht ein enger Zusammenhang zwischen Verlustfunktionen und Bayes'schen Fehlermodellen (siehe hier für eine Diskussion).

Es kann jedoch vorkommen, dass die Optimierung schwierig wird, sobald Sie anfangen, "funky" -Dämpfungsfunktionen zu integrieren (beachten Sie, dass dies auch in der Bayes'schen Welt der Fall ist). In vielen Fällen greifen die Benutzer daher auf einfach zu optimierende Standardverlustfunktionen zurück und führen stattdessen eine zusätzliche Vorverarbeitung durch, um sicherzustellen, dass die Daten dem Modell entsprechen.

Der andere Punkt, den Sie erwähnen, ist, dass die CLT nur für Proben gilt, die IID sind. Dies ist wahr, aber dann sind die Annahmen (und die begleitende Analyse) der meisten Algorithmen gleich. Wenn Sie anfangen, Nicht-IID-Daten zu betrachten, werden die Dinge viel kniffliger. Ein Beispiel ist, wenn es eine zeitliche Abhängigkeit gibt. In diesem Fall wird normalerweise davon ausgegangen, dass die Abhängigkeit nur ein bestimmtes Fenster überspannt, und Proben können daher als ungefähr IID außerhalb dieses Fensters betrachtet werden (siehe zum Beispiel dieses brillante, aber harte Papier, Chromatic PAC) -Bayes Bounds für Nicht-IID-Daten: Anwendungen für Rangfolgen und stationäre β-Mischprozesse. Danach kann die normale Analyse angewendet werden.

Also, ja, es kommt zum Teil auf die Bequemlichkeit an und zum Teil, weil in der realen Welt die meisten Fehler (ungefähr) nach Gauß aussehen. Man sollte natürlich immer vorsichtig sein, wenn man sich ein neues Problem ansieht, um sicherzustellen, dass die Annahmen nicht verletzt werden.


1
+1 Vielen Dank, dass Sie besonders die robusten und nicht robusten Statistiken erwähnt haben. Ich beobachte, dass der Median und der Alpha-getrimmte Mittelwert normalerweise besser funktionieren als der Mittelwert in der Praxis, aber ich kannte die Theorie dahinter nicht.
Petrichor

3
Ein weiterer Vorteil, der mit normal verteilten Daten verbunden ist, besteht darin, dass die 0-Korrelation Unabhängigkeit impliziert.
AdamO

3
Der Kommentar zu IID-ness ist nicht ganz richtig. Es gibt (mehrere) sehr allgemeine zentrale Grenzwertsätze, die gelten, wenn die Ergebnisse unabhängig, aber nicht identisch verteilt sind. siehe zB das Lindeberg CLT. Es gibt auch CLT-Ergebnisse, die nicht einmal Unabhängigkeit benötigen. Sie können beispielsweise aus austauschbaren Beobachtungen resultieren.
Gast
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.