Sind Regressionen mit Schülerfehlern nutzlos?

Bitte bearbeiten.

Wenn Sie Daten mit starken Schwänzen haben, scheint es intuitiv zu sein, eine Regression mit Schülerfehlern durchzuführen. Während ich diese Möglichkeit erkundete, stieß ich auf dieses Papier:

Breusch, TS, Robertson, JC & Welsh, AH (1. November 1997). Die neue Kleidung des Kaisers: eine Kritik des multivariaten Regressionsmodells. Statistica Neerlandica, 51, 3.) ( Link , pdf )

Was argumentiert, dass der Skalierungsparameter und der Freiheitsgradparameter in gewissem Sinne nicht in Bezug zueinander identifizierbar sind und dass aus diesem Grund eine Regression mit t-Fehlern nichts anderes tut als eine standardmäßige lineare Regression.

Zellner (1976) schlug ein Regressionsmodell vor, in dem der Datenvektor (oder der Fehlervektor) als Realisierung aus der multivariaten Student t-Verteilung dargestellt wird. Dieses Modell hat beträchtliche Aufmerksamkeit auf sich gezogen, da es die übliche Gaußsche Annahme zu erweitern scheint, um schwerere Fehlerverteilungen zu ermöglichen. Eine Reihe von Ergebnissen in der Literatur weisen darauf hin, dass die Standardinferenzverfahren für das Gaußsche Modell unter der breiteren Verteilungsannahme angemessen bleiben, was zu Behauptungen der Robustheit der Standardmethoden führt. Wir zeigen, dass die beiden Modelle zwar mathematisch unterschiedlich sind, für statistische Inferenzzwecke jedoch nicht unterscheidbar sind. Die empirischen Implikationen des multivariaten t-Modells sind genau die gleichen wie die des Gaußschen Modells. Daher ist der Vorschlag einer breiteren Verteilung der Daten falsch, und die Behauptungen der Robustheit sind irreführend. Diese Schlussfolgerungen werden sowohl aus frequentistischer als auch aus bayesianischer Sicht gezogen.

Das überrascht mich.

Ich habe nicht die mathematische Raffinesse, um ihre Argumente gut zu bewerten, daher habe ich ein paar Fragen: Stimmt es, dass Regressionen mit T-Fehlern im Allgemeinen nicht sinnvoll sind? Wenn sie manchmal nützlich sind, habe ich das Papier falsch verstanden oder ist es irreführend? Wenn sie nicht nützlich sind, ist dies eine bekannte Tatsache? Gibt es andere Möglichkeiten, Daten mit schweren Schwänzen zu berücksichtigen?

Bearbeiten : Bei näherer Betrachtung von Absatz 3 und Abschnitt 4 sieht es so aus, als würde das folgende Papier nicht über das sprechen, was ich als Student-t-Regression angesehen habe (Fehler sind unabhängige univariate t-Verteilungen). Die Fehler werden stattdessen aus einer einzelnen Verteilung gezogen und sind nicht unabhängig. Wenn ich das richtig verstehe, erklärt dieser Mangel an Unabhängigkeit genau, warum Sie das Ausmaß und die Freiheitsgrade nicht unabhängig voneinander abschätzen können.

Ich denke, dieses Papier enthält eine Liste von Papieren, um das Lesen zu vermeiden.

— John Salvatier
quelle

Sind Sie sicher, dass Sie das Papier über eine Dropbox verteilen dürfen? besser nochmal überprüfen.

— Toby El Tejedor

Ich denke, Laplace Distribution gibt Ihnen die Möglichkeit, schwere Schwänze bis zu einem gewissen Grad zu behandeln.

— Toby El Tejedor

Ihre Bearbeitung ist korrekt. Die in diesem Artikel vorgestellten Ergebnisse gelten nur für multivariate t-Fehler. Wenn Sie unabhängige t-Fehler verwenden, sind Sie sicher.

Ich denke nicht, dass das Papier bekannt ist, aber ich denke, dass es richtig ist.

Die statistische Literatur ist voll von "Verallgemeinerungen", die in vielen Fällen entweder Umparametrierungen, Eins-zu-Eins-Transformationen oder manchmal nutzlos sind, weil sie nicht wesentlich zur Verallgemeinerung einiger Eigenschaften des betreffenden Modells beitragen.