Warum sollten wir t Fehler anstelle von normalen Fehlern verwenden?

In diesem Blog-Beitrag von Andrew Gelman gibt es folgende Passage:

Die Bayes'schen Modelle von vor 50 Jahren scheinen hoffnungslos einfach (außer natürlich für einfache Probleme), und ich gehe davon aus, dass die heutigen Bayes'schen Modelle in 50 Jahren hoffnungslos einfach erscheinen werden. (Nur als einfaches Beispiel: Wir sollten wahrscheinlich überall routinemäßig t anstelle von normalen Fehlern verwenden, aber wir tun dies noch nicht aus Vertrautheit, Gewohnheit und mathematischer Bequemlichkeit. Dies können gute Gründe sein - in der Wissenschaft als In der Politik hat der Konservatismus viele gute Argumente - aber ich denke, wenn wir uns mit komplizierteren Modellen anfreunden, werden wir uns letztendlich in diese Richtung bewegen.)

Warum sollten wir "routinemäßig t anstelle von normalen Fehlern fast überall verwenden"?

— Kartoffel
quelle

Antworten:

Denn die Annahme normaler Fehler ist im Grunde genommen die gleiche wie die Annahme, dass keine großen Fehler auftreten! Die Normalverteilung hat so leichte Schwänze, dass Fehler außerhalb von Standardabweichungen mit sehr geringer Wahrscheinlichkeit auftreten, Fehler außerhalb von Standardabweichungen sind praktisch ausgeschlossen. In der Praxis ist diese Annahme selten richtig. Bei der Analyse kleiner, übersichtlicher Datensätze aus gut durchdachten Experimenten spielt dies möglicherweise keine große Rolle, wenn wir eine gute Analyse der Residuen durchführen. Bei Daten mit geringerer Qualität kann dies viel mehr ausmachen. $\pm 3$ $\pm 6$

Bei Verwendung von Likelihood-basierten (oder Bayes'schen) Methoden bewirkt diese Normalität (wie oben erwähnt, ist dies effektiv die Annahme, dass keine großen Fehler vorliegen!), Dass die Folgerung sehr wenig robust wird. Die Ergebnisse der Analyse werden durch die großen Fehler zu stark beeinflusst! Dies muss so sein, da die Annahme "keine großen Fehler" unsere Methoden zwingt, die großen Fehler als kleine Fehler zu interpretieren. Dies kann nur durch Verschieben des Mittelwertparameters geschehen, um alle Fehler zu verkleinern. Eine Möglichkeit, dies zu vermeiden, ist die Verwendung sogenannter "robuster Methoden" (siehe http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust) .pdf

Aber Andrew Gelman wird sich nicht dafür entscheiden, da robuste Methoden in der Regel nicht-bayesisch dargestellt werden. Verwendung von t-verteilen Fehler in Likelihood / Bayesian Modellen ist eine andere Art und Weise robust Methoden zu erhalten, wie die -Verteilung schwerere tails als die normalen hat, also für einen größeren Anteil an großen Fehlern ermöglicht. Der Parameter für die Anzahl der Freiheitsgrade sollte im Voraus festgelegt und nicht aus den Daten geschätzt werden, da eine solche Schätzung die Robustheitseigenschaften der Methode (*) zerstört (es ist auch ein sehr schwieriges Problem, die Wahrscheinlichkeitsfunktion für , die Freiheitsgrade können unbegrenzt sein, was zu sehr ineffizienten (auch inkonsistenten) Schätzern führt. $t$ $\nu$

Wenn Sie zum Beispiel glauben (befürchten), dass 1 von 10 Beobachtungen "große Fehler" sein könnten (über 3 sd), dann könnten Sie eine Verteilung mit 2 Freiheitsgraden verwenden und diese Zahl erhöhen, wenn die Es wird angenommen, dass der Anteil großer Fehler kleiner ist. $t$

Ich sollte beachten, dass das, was ich oben gesagt habe, für Modelle mit unabhängigen verteilten Fehlern gilt. Es gab auch Vorschläge für eine multivariate Verteilung (die nicht unabhängig ist) als Fehlerverteilung. : Das Propsal wird in dem Aufsatz „Kritik an der multivariaten Des Kaisers neue Kleider heftig kritisiert von TS Breusch, JC Robertson und AH Welsh, in Statistica Neerlandica (1997) Vol Regressionsmodell“. 51, nr. 3, S. 269-286, wo sie zeigen, dass die multivariate Fehlerverteilung empirisch nicht von der Normalverteilung zu unterscheiden ist. Diese Kritik wirkt sich jedoch nicht auf das unabhängige Modell aus. $t$ $t$ $t$ $t$ $t$

(*) Ein Hinweis darauf ist Venables & Ripleys MASS --- Modern Applied Statistics mit S (auf Seite 110 in der 4. Ausgabe).

— kjetil b halvorsen
quelle

ν

$\nu$

ν \leq 2

$\nu\leq2$

t

$t$

ν

$\nu$

ν > 2

$\nu>2$

Tolle Antwort und Kommentar. Aber: 1. Gelman verteidigt ein Standardverfahren, das besser ist, als normale Fehler anzunehmen. Wir sollten also die einfachen (Normalen Fehler) mit der T-Verteilung für die Fehler vergleichen. 2. In der verwandten Frage, die von Benutzer 603 verlinkt wurde, sollten wir beachten, dass wir sie verwenden sollten, wenn wir über vorherige Informationen verfügen. Bayes zeichnet sich durch vorherige Informationen aus. Und im Beispiel haben wir Vorinformationen, die nicht verwendet werden. 3. Mit posterioren Vorhersagetests sind wir nicht d know that the model proposed isngut genug.

— Manoel Galdino

t_{1}

$t_1$

Nein, die t-Verteilung ist die einzige Wahl, da die t-Verteilung die posteriore Vorhersage des Gaußschen Modells ist. Gelman hat nicht nur die T-Verteilung zufällig ausgewählt.

— Neil G

Siehe: Murphy, Kevin P. "Konjugierte Bayes'sche Analyse der Gauß'schen Verteilung." def 1.2σ2 (2007): 16. Er leitet die t-Verteilung als posteriores Prädiktiv des Gaußschen Modells ab. Es ist nicht nur ein Fall, in dem der Modellierer eine willkürliche schwerfällige Verteilung auswählt.

— Neil G

Es geht nicht nur um "schwerere Schwänze" - es gibt viele Verteilungen, die glockenförmig sind und schwere Schwänze haben.

Die T-Verteilung ist der hintere Vorhersagewert des Gaußschen Modells. Wenn Sie eine Gaußsche Annahme machen, aber begrenzte Beweise haben, dann macht das resultierende Modell notwendigerweise nicht-zentrale skalierte t-verteilte Vorhersagen. Im Grenzfall erhalten Sie, da die Menge an Beweisen bis ins Unendliche reicht, Gaußsche Vorhersagen, da die Grenze der t-Verteilung Gaußsch ist.

Warum passiert das? Denn mit einer endlichen Menge an Beweisen gibt es Unsicherheiten in den Parametern Ihres Modells. Im Falle des Gaußschen Modells würde die Unsicherheit im Mittelwert lediglich die Varianz erhöhen (dh das posteriore Prädiktiv eines Gaußschen mit bekannter Varianz ist immer noch Gaußsch). Die Unsicherheit über die Varianz ist jedoch die Ursache für die schweren Schwänze. Wenn das Modell mit unbegrenzten Nachweisen trainiert wird, gibt es keine Unsicherheit mehr in Bezug auf die Varianz (oder den Mittelwert) und Sie können Ihr Modell verwenden, um Gaußsche Vorhersagen zu treffen.

Dieses Argument gilt für ein Gaußsches Modell. Dies gilt auch für einen Parameter, der abgeleitet wird und dessen Wahrscheinlichkeiten Gauß'sch sind. Bei endlichen Daten ist die Unsicherheit über den Parameter t-verteilt. Überall dort, wo normale Annahmen (mit unbekanntem Mittelwert und unbekannter Varianz) und endliche Daten vorliegen, gibt es t-verteilte posteriore Vorhersagen.

Für alle Bayes'schen Modelle gibt es ähnliche posteriore Vorhersageverteilungen. Gelman schlägt vor, dass wir diese verwenden sollten. Seine Bedenken würden durch ausreichende Beweise abgemildert.

— Neil G
quelle

Können Sie dies mit einigen Referenzen belegen?

— kjetil b halvorsen

@kjetilbhalvorsen: Murphy, Kevin P. "Konjugieren Sie die Bayes'sche Analyse der Gauß'schen Verteilung." def 1.2σ2 (2007): 16.

— Neil G

Interessante Perspektive, das hatte ich noch nie gehört. Führen t-verteilte Fehler also auch zu t-verteilten Vorhersagen? Dies ist für mich das ist ein Argument zugunsten der fort Gaußschen Fehler zu verwenden. Sofern Sie keine bedingten Ausreißer erwarten , muss das bedingte Fehlermodell diese nicht berücksichtigen. Dies läuft auf die Annahme hinaus, dass die gesamte Abweichung von den Abweichungswerten der Prädiktoren herrührt. Ich denke nicht, dass diese Annahme in vielen Fällen so schlecht ist. Und aus rein ästhetischen Gründen verstehe ich nicht, warum die bedingte und marginale Verteilung übereinstimmen müssen

— shadowtalker

@ssdecontrol "Führen t-verteilte Fehler auch zu t-verteilten Vorhersagen?" Ich weiß es nicht, aber ich denke nicht. Für mich ist diese Perspektive sehr nützlich, um intuitiv zu verstehen, warum der T-Test funktioniert.

— Neil G