Was sind einige Beispiele für anachronistische Praktiken in der Statistik?


55

Ich beziehe mich auf Praktiken, die immer noch präsent sind, obwohl die Probleme (normalerweise rechnerisch), mit denen sie fertig wurden, größtenteils gelöst wurden.

Zum Beispiel wurde Yates 'Kontinuitätskorrektur erfunden, um den exakten Fisher-Test mit dem with 2- Test Sie ist jedoch nicht mehr praktikabel, da die Software jetzt den Fisher-Test auch mit großen Stichproben verarbeiten kann (ich weiß, dass dies möglicherweise kein gutes Beispiel für die "Aufrechterhaltung des Fisher-Tests" ist Präsenz ", da in Lehrbüchern wie Agrestis Categorical Data Analysis häufig anerkannt wird, dass die Korrektur von Yates" nicht mehr erforderlich ist ").χ2

Was sind andere Beispiele für solche Praktiken?


Ich bin mir eigentlich nicht so sicher, ob der Chi-Quadrat-Test durch die Verfügbarkeit von Rechenleistung für die Durchführung von Fischers genauem Test überflüssig geworden ist. Sind z. B. Ihre Marginals wirklich festgelegt? Siehe diese Antwort auf eine andere Frage von @gung zum Beispiel. (Ich bin mir ziemlich sicher, dass wir einen Thread haben, der das Problem ausführlicher bespricht, aber ich kann ihn nicht finden, da wir viele Fragen zu "Soll ich Chi-Quadrat verwenden oder sollte ich den exakten Test von Fisher verwenden" haben, die sich wann zeigen Ich suche!)
Silberfischchen

@Silverfish: Ich habe nicht gemeint, dass veraltet ist, nur die Korrektur von Yates. Ich glaube, Studien haben gezeigt, dass die Korrektur von Yates zu konservativ ist, wenn die Spielräume nicht festgelegt sind. Michael Habers Artikel The Continuity Correction and Statistical Testing lieferte eine Übersicht. χ2
Francis


OLS anstelle von LAD verwenden?
PatrickT

5
@PatrickT: Ich habe große Probleme, OLS anachronistisch zu nennen. Klar, es gibt Sonderfälle, in denen LAD eindeutig überlegen ist ... aber dasselbe kann man auch in die andere Richtung sagen.
Cliff AB

Antworten:


49

P=0.05P=0.01P

P

Ich möchte darauf hinweisen, dass ich hier auf ein kompliziertes und kontroverses Thema eingehe, das im Mittelpunkt ganzer Bücher und wahrscheinlich Tausender von Artikeln steht, aber es scheint ein faires Beispiel für diesen Thread zu sein.


4
Tolles Beispiel! Als Referenz ist dieser Thread erwähnenswert: In Bezug auf p-Werte, warum 1% und 5%? Warum nicht 6% oder 10%?
Francis

5
@ JM Ich bin zu 95% zuversichtlich, dass Sie Recht haben, obwohl ich nicht zu 99% zuversichtlich bin.
Mark L. Stone

5
α=0.038561

4
@CliffAB Ich denke nicht, dass der Hauptpunkt eines exakten P-Werts darin besteht, dass Sie dann entscheiden, dass er das kritische Niveau darstellt, das Sie für eine Entscheidung übernehmen möchten. Ich schlage das mit Sicherheit nicht vor oder befürworte es. Ein Teil des Arguments ist hier nicht nur, dass 0,05 und 0,01 bestenfalls konventionelle Werte sind, sondern dass Tests eine Möglichkeit bieten, die Beweiskraft anhand einer Nullhypothese zu bewerten, anstatt eine binäre Entscheidung zu treffen. In der Praxis werden in vielen Bereichen nach wie vor die Stufen 0,05 und 0,01 sehr häufig verwendet.
Nick Cox

4
@ Nick Cox Und vergessen Sie nicht das 0,1-Level für die entspannte, ausgereifte Menge.
Mark L. Stone

24

Eine Methode, der ich glaube, dass viele Besucher dieser Website zustimmen, ist die schrittweise Regression. Es ist immer noch die ganze Zeit erledigt , aber Sie müssen nicht lange nach Experten auf dieser Seite suchen, die sagen, dass sie ihre Verwendung bedauern. Eine Methode wie LASSO ist sehr bevorzugt.


4
HA!! Sie empfehlen, einen Anachronismus (schrittweise Regression) durch einen Anachronismus der nächsten Generation (LASSO) zu ersetzen, der zu seiner Zeit ein Anachronismus ist, dessen Anhänger ihn noch nicht erkennen. Siehe stats.stackexchange.com/questions/162861/… .
Mark L. Stone

3
@ MarkL.Stone: Hey Mann, es sind mindestens 20 Jahre in die richtige Richtung. Ich bin mit diesen Methoden nicht so vertraut, daher müsste ich sie nachlesen, bevor ich ihnen meine Zustimmung geben kann.
Cliff AB

2
Nachdem ich den Artikel schnell gelesen habe, zögere ich ein wenig, zu entscheiden, dass LASSO offiziell veraltet ist, obwohl es eindeutig nicht immer die optimale Wahl ist. Vielleicht fühle ich mich in 5 Jahren wohler, wenn ich LASSO als veraltet bezeichne.
Cliff AB

2
@amoeba: Ich denke, Mark bezieht sich auf die Praxis, LASSO als Werkzeug für die beste Regression von Teilmengen zu verwenden. Zum Beispiel erinnere ich mich vage daran, dass ich gelesen habe, wie jemand zuerst LASSO anpasste und dann ein nicht bestraftes Modell unter Verwendung der Nicht-Null-Regressionsparameter wieder anpasste. Die Regression der besten Teilmenge ist möglicherweise direkter (obwohl, wie Sie sagen, nicht klar ist, dass dies eine gute Idee ist, auch wenn es das ist, was der Analyst tun möchte ).
Cliff AB

2
... und das Papier zeigt mindestens eine Situation (dh Simulation unter bestimmten Parametern), in der LASSO eindeutig durchgeführt wird, obwohl wir alle genau wissen, wie ernst wir solche Ergebnisse für sich nehmen sollten.
Cliff AB

17

Meiner Ansicht nach ist es zumindest in der (angewandten) Ökonometrie mehr und mehr die Norm, die robuste oder empirische Kovarianzmatrix zu verwenden, als die "anachronistische Praxis", sich (asymptotisch) auf die korrekte Spezifikation der Kovarianzmatrix zu verlassen. Dies ist natürlich nicht unumstritten: Sehen Sie sich einige der Antworten an, die ich hier bei CrossValidated verlinkt habe, aber es ist sicherlich ein klarer Trend.

E[uu]=σ2In

Andere Beispiele sind Paneldaten, Imbens und Wooldridge, die beispielsweise in ihren Vorlesungsfolien gegen die Verwendung der Varianz-Kovarianz-Matrix für Zufallseffekte argumentieren (implizit unter der Annahme einer gewissen Fehlspezifikation in der Varianz-Komponente als Standard):

σc2σu2

Bei Verwendung von verallgemeinerten linearen Modellen (für Verteilungen, die zur Exponentialfamilie gehören) wird häufig empfohlen, immer den sogenannten Sandwich-Schätzer zu verwenden, anstatt sich auf korrekte Verteilungsannahmen zu verlassen (die anachronistische Praxis hier): siehe zum Beispiel diese Antwort oder Cameron-Referenz zum Zählen von Daten, da die Schätzung der Pseudomaximalwahrscheinlichkeit im Falle einer Fehlspezifikation recht flexibel sein kann (z. B. Verwendung von Poisson, wenn das negative Binom richtig wäre).

Solche [weißen] Standardfehlerkorrekturen müssen für die Poisson-Regression vorgenommen werden, da sie einen viel größeren Unterschied machen können als ähnliche Heteroskedastizitätskorrekturen für OLS.

Greene schreibt in seinem Lehrbuch in Kapitel 14 (verfügbar auf seiner Website) zum Beispiel mit einer kritischen Anmerkung und geht detaillierter auf die Vor- und Nachteile dieser Praxis ein:

In der aktuellen Literatur besteht der Trend, diesen [Sandwich] -Schätzer unabhängig von der Wahrscheinlichkeitsfunktion routinemäßig zu berechnen. * [...] * Wir betonen noch einmal, dass der Sandwich-Schätzer an und für sich nicht notwendigerweise einer ist Tugend, wenn die Wahrscheinlichkeitsfunktion falsch spezifiziert ist und die anderen Bedingungen für den M-Schätzer nicht erfüllt sind.


4
Interessant, aber die Frage ist, was anachronistisch ist und nicht, was heutzutage immer üblicher wird. Die Antwort muss umgekehrt werden.
Nick Cox

1
Hallo Nick, danke für deinen Kommentar (und deine Änderungen). Ich habe den Text geändert, um hervorzuheben, was die anachronistische Praxis ist. Ich hoffe, es wird ein bisschen klarer. Ich habe den gesamten Text nicht invertiert, da die frühere Praxis fast nichts spezielles über den Standardfehler unternimmt.
Arne Jonas Warnke

In einigen Fällen ist es nicht natürlich und nicht möglich, robuste Alternativen zu verwenden, beispielsweise Zeitreihen. Ich denke, es wird nicht "populärer", sondern nur "in einigen Bereichen populärer".
Henry.L

13

m>1mm=1

m=30


Kam hierher, um dies zu posten. Ich bin auch nicht davon überzeugt, dass FWER in jeder Situation den noch neueren FDR-Methoden vorgezogen wird (aufgrund der Skalierbarkeit und Anpassungsfähigkeit).
Alexis

13

Die meisten anachronistischen Praktiken beruhen wahrscheinlich auf der Art und Weise, wie Statistik gelehrt wird, und auf der Tatsache, dass Analysen von einer großen Anzahl von Personen durchgeführt werden, die nur ein paar Grundklassen besucht haben. Wir unterrichten häufig eine Reihe von statistischen Standardideen und -verfahren, weil sie eine logische Folge zunehmender konzeptioneller Raffinesse bilden, die pädagogisch sinnvoll ist (vgl. Wie können wir jemals die Populationsvarianz erkennen? ). Ich bin selbst schuldig: Ich unterrichte gelegentlich Statistiken 101 und 102 und sage ständig: "Es gibt einen besseren Weg, dies zu tun, aber es geht über den Rahmen dieser Klasse hinaus." Für diejenigen Studenten, die nicht über die Einführungssequenz hinausgehen (fast alle), bleiben ihnen grundlegende, aber ersetzte Strategien.

  1. Für ein Statistikbeispiel besteht die wahrscheinlich häufigste anachronistische Praxis darin, einige Annahmen zu testen und dann eine herkömmliche statistische Analyse durchzuführen, da der Test nicht signifikant war. Ein moderner / fortgeschrittener / vertretbarer Ansatz wäre die Verwendung einer Methode, die von Anfang an dieser Annahme standhält. Einige Referenzen für weitere Informationen:

  2. Für Statistik 102-Beispiele ist eine beliebige Anzahl von Modellierungsmethoden veraltet:

    • Yp
    • Y
    • Verwenden eines Polynoms höherer Ordnung zum Erfassen der Krümmung im Vergleich zu kubischen Splines.
    • pR2
    • Bei Daten mit wiederholten Messungen Kategorisieren einer kontinuierlichen Variablen, sodass rmANOVA verwendet werden kann, oder Mitteln mehrerer Messungen im Vergleich zur Verwendung eines linearen gemischten Modells.
    • Usw.

In all diesen Fällen geht es darum, dass die Leute das tun, was sie als erstes in einem Einführungskurs gelernt haben, weil sie einfach keine fortgeschritteneren und angemesseneren Methoden kennen.


5

Ein sehr interessantes Beispiel sind Einheitswurzeltests in der Ökonometrie. Während es eine Vielzahl von Möglichkeiten gibt, um das Lag-Polynom einer Zeitreihe gegen eine Einheitswurzel oder für eine Einheitswurzel zu testen (z. B. der (erweiterte) Dickey-Fuller-Test oder der KPSS-Test), kann das Problem vollständig umgangen werden, wenn man die Bayes'sche Analyse verwendet . Darauf wies Sims in seinem provokanten Aufsatz mit dem Titel " Understanding Unit Rooters: A Helicopter Tour from 1991" hin.

Einheitswurzeltests bleiben gültig und werden in der Ökonometrie verwendet. Ich persönlich würde dies vor allem Menschen zuschreiben, die sich nur ungern an Bayes'sche Praktiken anpassen, aber viele konservative Ökonomen verteidigen die Praxis der Einheitswurzeltests, indem sie sagen, dass eine Bayes'sche Sicht der Welt der Prämisse der ökonometrischen Forschung widerspricht. (Das heißt, Ökonomen betrachten die Welt als einen Ort mit festen Parametern, nicht als zufällige Parameter, die von bestimmten Hyperparametern gesteuert werden.)


5
Mich würde eine kurze Diskussion darüber interessieren, wie Bayes'sche Praktiken diese Tests umgehen. Mit anderen Worten, wie würden Sie diese Behauptung vertreten?
Mike Hunter

Ich muss zugeben, dass es eine Weile her ist, seit ich die Zeitung gelesen habe, aber der wichtigste Punkt ist, dass man die Standard-t-Werte verwenden kann, wenn man für die Bayes'sche Analyse einer Zeitreihe einen flachen Prior verwendet.
Jeremias K

5

Entrichtung von Lizenzgebühren für hochwertige statistische Softwaresysteme. #R


1

Das Unterrichten / Durchführen von zweiseitigen Differenztests, ohne gleichzeitig die Äquivalenz im Bereich der Hypothesentests zu überprüfen, ist ein tiefes Bekenntnis zur Bestätigungsverzerrung .

Es gibt eine gewisse Nuance dahingehend, dass eine angemessene Leistungsanalyse mit einer durchdachten Definition der Effektgröße dagegen schützen und mehr oder weniger die gleichen Schlussfolgerungen liefern kann, aber (a) Leistungsanalysen werden bei der Präsentation von Ergebnissen so oft ignoriert, und (b) ich Ich habe noch nie eine Leistungsanalyse für beispielsweise jeden Koeffizienten, der für jede Variable in einer Mehrfachregression geschätzt wurde, gesehen, aber es ist einfach, dies für kombinierte Differenztests und Äquivalenztests (dh Relevanztests) zu tun .


0

Verwenden Sie ein negatives Binomialmodell anstelle eines (robusten) Poisson-Modells, um einen interessierenden Parameter in einer Zählvariablen zu identifizieren, nur weil eine Überdispersion vorliegt?

Siehe als Referenz: https://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/

Der Beweis, dass Poisson im Fall von Fixeffekten robuster ist, ist relativ neu, da offenbar Bezug genommen wird auf: Wooldridge, JM, "Verteilungsfreie Schätzung einiger nichtlinearer Paneldatenmodelle", Journal of Econometrics 90 (1999), 77–97.


-6

Hier sind einige Anachronismen:

  • Die neoplatonische Annahme, dass es im theoretischen Äther eine einzige "wahre" Population gibt, die ewig, fest und unbeweglich ist und anhand derer unsere unvollkommenen Proben bewertet werden können, trägt wenig zum Fortschritt von Lernen und Wissen bei.

  • Der Reduktionismus, der Mandaten wie Occams Rasiermesser innewohnt, ist mit der Zeit unvereinbar. OR kann wie folgt zusammengefasst werden: "Unter konkurrierenden Hypothesen sollte die mit den wenigsten Annahmen ausgewählt werden." Zu den Alternativen gehört das Epicurus- Prinzip mehrfacher Erklärungen , in dem grob gesagt wird: "Wenn mehr als eine Theorie mit den Daten übereinstimmt, behalten Sie sie alle bei."

  • Das gesamte Peer-Review-System bedarf dringend einer Überarbeitung.

* Bearbeiten *

  • Bei umfangreichen Daten, die Millionen von Features enthalten, ist keine variable Auswahlphase mehr erforderlich.

  • Inferenzstatistiken sind ausserdem bedeutungslos.


Kommentare sind nicht für längere Diskussionen gedacht. Diese Unterhaltung wurde in den Chat verschoben .
Whuber
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.