Warum haben robuste (und widerstandsfähige) Statistiken die klassischen Techniken nicht ersetzt?


82

Bei der Lösung von Geschäftsproblemen mithilfe von Daten wird häufig davon ausgegangen, dass mindestens eine der Annahmen, die die klassischen Statistiken untermauern, ungültig ist. Meistens stört sich niemand daran, diese Annahmen zu überprüfen, so dass Sie es nie wirklich wissen.

Zum Beispiel ist die Tatsache, dass so viele der gängigen Web-Metriken (im Verhältnis zur Normalverteilung) "long-tailed" sind, mittlerweile so gut dokumentiert, dass wir dies für selbstverständlich halten. Ein weiteres Beispiel sind Online-Communities - selbst in Communities mit Tausenden von Mitgliedern ist gut dokumentiert, dass der weitaus größte Anteil des Beitrags zu / der Teilnahme an vielen dieser Communitys auf eine winzige Gruppe von „Super-Contributors“ zurückzuführen ist. (ZB veröffentlichte ein StackOverflow- Mitglied vor einigen Monaten, kurz nachdem die SO-API in der Beta verfügbar gemacht wurde, eine kurze Analyse der Daten, die er über die API gesammelt hatte. Seine Schlussfolgerung: Weniger als ein Prozent der SO-Mitglieder machen den größten Teil aus die Aktivität auf SO (vermutlich Fragen stellen und beantworten), weitere 1-2% machten den Rest aus, und die überwiegende Mehrheit der Mitglieder tut nichts).

Verteilungen dieser Art - wieder häufiger die Regel als die Ausnahme - lassen sich häufig am besten mit einer Potenzgesetzdichtefunktion modellieren . Für diese Art von Verteilungen ist es problematisch, sogar den zentralen Grenzwertsatz anzuwenden.

Angesichts der Fülle solcher Populationen, die für Analysten von Interesse sind, und angesichts der Tatsache, dass klassische Modelle mit diesen Daten nachweislich schlecht abschneiden, und angesichts der Tatsache, dass robuste und resistente Methoden schon eine Weile existieren (mindestens 20 Jahre, glaube ich) - warum Werden sie nicht öfter benutzt? (Ich frage mich auch, warum ich sie nicht öfter benutze, aber das ist keine wirkliche Frage für CrossValidated .)

Ja, ich weiß, dass es Lehrbuchkapitel gibt, die sich ausschließlich mit robusten Statistiken befassen, und ich weiß, dass es (einige) R-Pakete gibt ( Robustbase ist das, mit dem ich vertraut bin und das ich verwende) usw.

Angesichts der offensichtlichen Vorteile dieser Techniken sind sie jedoch häufig eindeutig die besseren Werkzeuge für den Job - warum werden sie nicht viel häufiger eingesetzt ? Sollten wir nicht damit rechnen, dass robuste (und resistente) Statistiken im Vergleich zu den klassischen Analoga weitaus häufiger (vielleicht sogar mutmaßlich) verwendet werden?

Die einzige wesentliche (dh technische) Erklärung, die ich gehört habe, ist, dass robusten Techniken (ebenfalls für resistente Methoden) die Kraft / Empfindlichkeit klassischer Techniken fehlt. Ich weiß nicht, ob dies tatsächlich in einigen Fällen zutrifft, aber ich weiß, dass es in vielen Fällen nicht zutrifft.

Ein letztes Wort zur Präferenz: Ja, ich weiß, dass diese Frage keine einzige nachweislich richtige Antwort hat. Sehr wenige Fragen auf dieser Site. Darüber hinaus ist diese Frage eine echte Untersuchung; Es ist kein Vorwand, eine Sichtweise vorzubringen - ich habe hier keine Sichtweise, nur eine Frage, auf die ich einige einsichtige Antworten erhoffe.


12
The Black Swann von Nassim Nicholas Taleb erklärt, warum in der Finanzwelt einfache Modelle verwendet wurden und zu welchen Gefahren dies geführt hat. Ein besonderer Fehler besteht darin, sehr niedrige Wahrscheinlichkeiten mit Null gleichzusetzen und die Normalverteilung im Risikomanagement blind anzuwenden!
James

9
Tests, die auf vielen Annahmen beruhen, sind leistungsfähiger, wenn diese Annahmen erfüllt sind. Wir können die Signifikanz der Abweichung testen, indem wir annehmen, dass die Beobachtungen IID-Gauß sind, was den Mittelwert als Statistik angibt. Ein weniger restriktiver Satz von Annahmen fordert uns auf, den Median zu verwenden. Wir können noch weiter gehen und davon ausgehen, dass Beobachtungen korreliert sind, um noch robuster zu werden. Aber jeder Schritt verringert die Leistung unseres Tests, und wenn wir überhaupt keine Annahmen treffen, ist unser Test unbrauchbar. Robuste Tests stellen implizit Annahmen über Daten und sind nur dann besser als klassische, wenn diese Annahmen besser mit der Realität übereinstimmen
Jaroslaw Bulatow,

Antworten:


69

Forscher wollen kleine p-Werte, und Sie können kleinere p-Werte erhalten, wenn Sie Methoden verwenden, die stärkere Verteilungsannahmen treffen. Mit anderen Worten, mit nicht robusten Methoden können Sie mehr Artikel veröffentlichen. Natürlich können mehr dieser Artikel falsch positiv sein, aber eine Veröffentlichung ist eine Veröffentlichung. Das ist eine zynische Erklärung, aber manchmal gültig.


4
"Manchmal" ist eine Untertreibung ... die Logik des Autors ist nicht oft so direkt, aber das Stimulus / Belohnungs-Szenario ist so, dass die Leute dies als eine Frage der Konditionierung tun
John

2
Ich bin nicht der Meinung, dass Forscher so sehr unehrlich sind, als dass sie aus Unwissenheit handeln. Sie verstehen nicht, was Statistiken bedeuten oder welche Annahmen sie benötigen, aber wie Sie sagten, verstehen sie den Anreiz / die Belohnung eindeutig: p> 0,05 => keine Veröffentlichung.
John D. Cook

10
Sie müssen auch etwas präsentieren, das die "Machthaber" (Entscheidungsträger, Vorgesetzte, Prüfer) verstehen. Daher muss es sich um die gemeinsame Sprache handeln, die sich nur sehr langsam entwickelt, da diese Menschen in der Regel älter und veränderungsresistenter sind, da dies ihre bisherige Karriere möglicherweise ungültig macht!
James

12
Guter Punkt. "Ich verstehe p-Werte. Gib mir einfach einen p-Wert." Ironischerweise haben sie wahrscheinlich nicht verstehen , p-Werte, aber das ist eine andere Sache.
John D. Cook

2
Ich glaube nicht, dass dies kategorisch wahr ist. Zumindest habe ich gehört, dass die moderne Nichtparametrie oft nur sehr wenig Leistung opfert, wenn überhaupt. AFAIK, Leistungsverlust ist am ausgeprägtesten bei Tests mit Rangtransformationen, die unter robusten Methoden kaum allgegenwärtig sind.
Nick Stauner

42

Also scheitern "klassische Modelle" (was auch immer sie sind - ich nehme an, Sie meinen so etwas wie einfache Modelle, die in Lehrbüchern gelehrt und von ML geschätzt werden) an einigen, vielleicht vielen realen Datensätzen.

Wenn ein Modell ausfällt, gibt es zwei grundlegende Lösungsansätze:

  1. Machen Sie weniger Annahmen (weniger Modell)
  2. Machen Sie mehr Annahmen (mehr Modell)

Robuste Statistik-, Quasi-Likelihood- und GEE-Ansätze verfolgen den ersten Ansatz, indem die Schätzstrategie in eine Strategie geändert wird, bei der das Modell nicht für alle Datenpunkte gilt (robust) oder nicht alle Aspekte der Daten charakterisieren muss (QL und GEE).

Die Alternative besteht darin, ein Modell zu erstellen, das die Quelle kontaminierender Datenpunkte oder die scheinbar falschen Aspekte des ursprünglichen Modells explizit modelliert, wobei die Schätzmethode unverändert bleibt.

Einige bevorzugen intuitiv das erstere (es ist in der Wirtschaft besonders beliebt) und andere bevorzugen intuitiv das letztere (es ist besonders beliebt bei Bayesianern, die mit komplexeren Modellen tendenziell zufrieden sind, insbesondere wenn sie erst einmal feststellen, dass sie Simulationswerkzeuge verwenden werden Rückschluss trotzdem).

Fettgebundene Verteilungsannahmen, z. B. unter Verwendung des negativen Binomials anstelle von Poisson oder t anstelle von Normal, gehören zur zweiten Strategie. Die meisten Dinge, die als "robuste Statistiken" bezeichnet werden, gehören zur ersten Strategie.

In der Praxis scheint es ziemlich schwierig, Schätzer für die erste Strategie für realistisch komplexe Probleme abzuleiten. Nicht, dass das ein Grund wäre, es nicht zu tun, aber es ist vielleicht eine Erklärung dafür, warum es nicht sehr oft gemacht wird.


4
+1. Sehr gute Erklärung. Ich denke auch, dass einige "robuste" Methoden eher ad hoc sind (abgeschnittene Mittel), und dass "robust" an einen bestimmten Aspekt einer Methode gebunden ist und keine allgemeine Qualität hat, aber viele Leute interpretieren "robust" als "ich donne" Ich muss mich nicht um meine Daten kümmern, da meine Methode robust ist ".
Wayne

Gute Antwort. Es stört mich, dass sich so viele Antworten auf die Schwierigkeit konzentrieren, belastbare Statistiken zu verstehen, oder auf die Anreize, die Verletzung von Annahmen zu ignorieren. Sie ignorieren die Leute da draußen, die wissen, dass es Fälle gibt, in denen zuverlässige Statistiken benötigt werden und in denen dies nicht der Fall ist.
Kenji

29

Ich würde vorschlagen, dass es eine Verzögerung im Unterrichten ist. Die meisten Menschen lernen entweder Statistik am College oder an der Universität. Wenn Statistik nicht Ihr erster Abschluss ist und Sie stattdessen einen Abschluss in Mathematik oder Informatik gemacht haben, decken Sie wahrscheinlich nur die grundlegenden Statistikmodule ab:

  1. Wahrscheinlichkeit
  2. Hypothesentest
  3. Regression

Dies bedeutet, dass Sie bei Problemen versuchen, das zu verwenden, was Sie wissen, um das Problem zu lösen.

  • Daten sind nicht normal - Protokolle erstellen.
  • Daten haben störende Ausreißer - entfernen Sie diese.

Wenn Sie nicht über etwas anderes stolpern, ist es schwierig, etwas besseres zu machen. Mit Google ist es wirklich schwierig, etwas zu finden, wenn Sie nicht wissen, wie es heißt!

Ich denke, bei allen Techniken wird es eine Weile dauern, bis die neueren Techniken nachlassen. Wie lange hat es gedauert, bis Standardhypothesentests Teil eines Standardstatistiklehrplans waren?

Übrigens, mit einem Statistik-Abschluss wird es immer noch eine Verzögerung in der Lehre geben - nur eine kürzere!


4
Dies wirft jedoch zumindest in der Psychologie ein interessantes pädagogisches Problem auf, da meines Wissens die meisten einführenden Statistikbücher, die auf meinem Gebiet verwendet werden, nur nebenbei robuste Maßnahmen diskutieren.
Russellpierce

3
Das ist sehr richtig, und auch in der Psychologie gibt es eine nervige Verwechslung zwischen nicht parametrisch und nicht normal, was das Verständnis zu behindern scheint.
Richiemorrisroe

2
Einige von uns Psychologen sind nur verwirrt über alles Statistische! :)
Nick Stauner

21

Jeder, der in statistischen Datenanalysen auf angemessenem Niveau geschult ist, verwendet regelmäßig die Konzepte robuster Statistiken. Die meisten Forscher wissen genug, um nach schwerwiegenden Ausreißern und Fehlern bei der Datenaufzeichnung zu suchen. Die Politik, verdächtige Datenpunkte zu entfernen, reicht mit Lord Rayleigh, GG Stokes und anderen seiner Zeit weit in das 19. Jahrhundert zurück. Wenn die Frage ist:

Warum verwenden Forscher nicht die moderneren Methoden zur Berechnung von Standort-, Skalierungs-, Regressionsschätzungen usw.?

Dann ist die Antwort oben angegeben - die Methoden wurden in den letzten 25 Jahren zum größten Teil entwickelt, etwa 1985 - 2010. Die Verzögerung beim Erlernen neuer Methoden trägt ebenso zur Trägheit bei wie der Mythos, an dem nichts auszusetzen ist blind mit klassischen Methoden. John Tukey merkt an, dass es nicht wichtig ist, welche robusten / resistenten Methoden Sie verwenden. Wichtig ist, dass Sie einige davon verwenden. Es ist vollkommen richtig, sowohl klassische als auch robuste / beständige Methoden routinemäßig anzuwenden und sich nur Sorgen zu machen, wenn sie sich stark genug unterscheiden, um eine Rolle zu spielen. Aber wenn sie sich unterscheiden , sollten Sie denken , hart .

Wenn stattdessen die Frage ist:

Warum halten Forscher nicht an und stellen Fragen zu ihren Daten, anstatt blindlings höchst instabile Schätzungen anzuwenden?

dann kommt die Antwort wirklich auf das Training. Es gibt viel zu viele Forscher, die noch nie ausreichend in Statistik geschult wurden, was sich aus der allgemeinen Abhängigkeit von p-Werten als dem A und O der statistischen Signifikanz ergibt.

@Kwak: Hubers Schätzungen aus den 1970er Jahren sind im klassischen Sinne robust: Sie widerstehen Ausreißern. Und absteigende Schätzer datieren tatsächlich weit vor den 1980er Jahren: Die Princeton-Robustheitsstudie (von 1971) enthielt die bisquadratische Schätzung des Standorts, eine absteigende Schätzung.


2
projecteuclid.org/… Frei verfügbares Dokument von Peter Huber über John Tukeys Beiträge zu robusten Statistiken. Ziemlich einfach zu lesen, die Formeln leicht verständlich.
Wesley Burr

20

Statistik ist ein Werkzeug für nicht statistisch denkende Forscher, und es interessiert sie einfach nicht.

Ich habe einmal versucht, mit einem Medizinartikel zu helfen, den meine Ex-Frau mitautorin war. Ich schrieb mehrere Seiten, in denen die Daten beschrieben wurden, was darauf hindeutete, warum bestimmte Beobachtungen aus der Studie ausgeschlossen worden waren ... und die leitende Forscherin, eine Ärztin, warf alles weg und bat jemanden, einen p-Wert zu berechnen, das ist alles, was sie ist (und fast jeder, der den Artikel lesen würde) kümmerte sich darum.


12

Ich gebe eine Antwort in zwei Richtungen:

  1. Dinge, die robust sind, werden nicht unbedingt als robust bezeichnet. Wenn Sie glauben, dass es Robustheit gegen alles gibt, sind Sie naiv.
  2. Statistische Ansätze, die das Problem der Robustheit teilweise hinter sich lassen, sind manchmal nicht an die reale Welt angepasst, aber oft wertvoller (als Konzept) als ein Algorithmus, der aussieht wie Küchenarbeit.

Entwicklung

Erstens denke ich, dass es in der Statistik viele gute Ansätze gibt (Sie werden sie in R-Paketen finden, die nicht unbedingt irgendwo mit robust erwähnt sind), die natürlich robust sind und auf reale Daten getestet wurden und die Tatsache, dass Sie keinen Algorithmus mit "robust" finden "irgendwo erwähnt bedeutet nicht, dass es nicht robust ist. Wenn Sie glauben, robust zu sein, bedeutet universell zu sein, werden Sie niemals ein robustes Verfahren finden (kein kostenloses Mittagessen), für das Sie Kenntnisse über die von Ihnen analysierten Daten benötigen, um ein angepasstes Tool verwenden oder ein angepasstes Modell erstellen zu können.

Andererseits sind einige statistische Ansätze nicht robust, da sie einem einzigen Modelltyp zugeordnet sind. Ich denke, es ist gut, irgendwann in einem Labor zu arbeiten, um zu versuchen, Dinge zu verstehen. Es ist auch gut, das Problem getrennt zu behandeln, um zu verstehen, welches Problem unsere Lösung ist ... so arbeitet der Mathematiker. Das Beispiel des Gaußschen Modells elocant: wird so oft kritisiert, weil die Gaußsche Annahme nie erfüllt wird, aber 75% der heute in der Statistik praktisch verwendeten Ideen einbringt. Denken Sie wirklich, dass es bei all dem darum geht, Papier zu schreiben, um der Publish- oder Perish-Regel zu folgen (die ich nicht mag, da stimme ich zu)?


11

Als jemand, der ein bisschen Statistik für meine eigene Forschung gelernt hat, schätze ich, dass die Gründe pädagogisch und träge sind.

Ich habe in meinem Fachgebiet beobachtet, dass die Reihenfolge, in der die Themen unterrichtet werden, die Geschichte des Fachgebiets widerspiegelt. Die Ideen, die zuerst kamen, werden zuerst gelehrt und so weiter. Für Leute, die nur für flüchtige Anweisungen in Statistiken eintauchen, bedeutet dies, dass sie zuerst und wahrscheinlich zuletzt klassische Statistiken lernen. Dann, auch wenn sie mehr lernen, bleibt das klassische Zeug aufgrund von Primat-Effekten besser bei ihnen.

Außerdem weiß jeder, was ein T-Test mit zwei Stichproben ist. Weniger als jeder weiß, was ein Mann-Whitney- oder Wilcoxon-Rang-Summen-Test ist. Dies bedeutet, dass ich nur ein wenig Energie darauf verwenden muss, zu erklären, was mein robuster Test ist, und nicht, dass ich bei einem klassischen Test irgendetwas tun muss. Solche Bedingungen werden offensichtlich dazu führen, dass weniger Menschen robuste Methoden anwenden, als sie sollten.


9

Wooldridge "Einführende Ökonometrie - Ein moderner Ansatz" 2E S.261.

Wenn heteroskedasticity-robuste Standardfehler häufiger gültig sind als die üblichen OLS-Standardfehler, warum stören wir uns dann überhaupt an den üblichen Standardfehlern? Wenn die Fehler normal verteilt sind, haben die üblichen t-Statistiken unabhängig von der Stichprobengröße exakte t-Verteilungen. Die robusten Standardfehler und robusten t-Statistiken sind nur dann gerechtfertigt, wenn die Stichprobengröße groß wird. Bei kleinen Stichprobengrößen kann die robuste t-Statistik Verteilungen aufweisen, die der t-Verteilung nicht sehr nahe kommen und die unsere Schlussfolgerung stören könnten. Bei großen Stichproben können wir sicherstellen, dass in Querschnittsanwendungen immer nur die Heteroskedasticity-robusten Standardfehler gemeldet werden.



7

Obwohl sie sich nicht gegenseitig ausschließen, denke ich, dass die wachsende Popularität der Bayes'schen Statistik dazu gehört. Bayesianische Statistiken können viele der gleichen Ziele durch Prioritäts- und Modellmittelung erreichen und sind in der Praxis tendenziell etwas robuster.


6

Ich bin kein Statistiker, meine statistischen Erfahrungen sind eher begrenzt. Ich verwende nur robuste Statistiken für die Bereiche Computer Vision / 3D-Rekonstruktion / Posenschätzung. Hier ist meine Sicht auf das Problem aus Anwendersicht:

Erstens werden robuste Statistiken in Technik und Wissenschaft häufig verwendet, ohne sie als "robuste Statistiken" zu bezeichnen. Viele Leute benutzen es intuitiv und kommen zu ihm, um eine bestimmte Methode an das Problem der realen Welt anzupassen. Zum Beispiel iterative Neugewichtung der kleinsten Quadrate und der beschnittenen Mittelwerte / kleinsten Quadrate, die häufig verwendet werden. Nur der Benutzer weiß nicht, dass robuste Statistiken verwendet werden. Sie machen die Methode nur für reale, nicht synthetische Daten funktionsfähig.

Zweitens werden praktisch immer "intuitive" und bewusst robuste Statistiken verwendet, wenn die Ergebnisse überprüfbar sind oder wenn klar sichtbare Fehlermetriken vorliegen. Wenn die mit der Normalverteilung erhaltenen Ergebnisse offensichtlich ungültig oder falsch sind, fangen die Leute an, an Gewichten zu basteln, zu trimmen, Proben zu nehmen, etwas Papier zu lesen und am Ende robuste Schätzer zu verwenden, unabhängig davon, ob sie den Begriff kennen oder nicht. Auf der anderen Seite, wenn das Ergebnis der Forschung nur einige Grafiken und Diagramme sind und es keine Unempfindlichkeit gibt, die Ergebnisse zu verifizieren, oder wenn normale Statistiken Ergebnisse liefern, die gut genug sind - die Leute kümmern sich einfach nicht darum.

Und schließlich zur Nützlichkeit robuster Statistiken als Theorie - obwohl die Theorie selbst sehr interessant ist, bietet sie häufig keine praktischen Vorteile. Die meisten zuverlässigen Schätzer sind ziemlich trivial und intuitiv und werden häufig ohne statistische Kenntnisse neu erfunden. Theorie, wie die Schätzung von Durchschlagspunkten, Asymptotik, Datentiefe, Heteroskedazität usw. ermöglichen ein tieferes Verständnis der Daten, aber in den meisten Fällen ist dies nur unnötig. Eine große Ausnahme ist die Überschneidung von robuster Statistik und Druckmessung, die einige neue praktische Methoden wie "Cross-and-Bouquet" hervorbringt.


5

Mein Wissen über robuste Schätzer bezieht sich ausschließlich auf robuste Standardfehler für Regressionsparameter. Mein Kommentar bezieht sich daher nur auf diese. Ich würde vorschlagen, dass die Leute diesen Artikel lesen,

Auf dem sogenannten "Huber Sandwich Estimator" und "Robust Standard Errors" von: Freedman, A. David The American Statistician, Vol. 60, No. 4. (November 2006), S. 299-302. doi: 10.1198 / 000313006X152207 ( PDF-Version )

Was mich bei diesen Ansätzen besonders beunruhigt, ist nicht, dass sie falsch sind, sondern sie lenken einfach von größeren Problemen ab. Daher stimme ich der Antwort von Robin Girard und seiner Erwähnung von "no free lunch" vollkommen zu.


3

Der Kalkül und die Wahrscheinlichkeit, die für robuste Statistiken benötigt werden, sind (normalerweise) schwieriger, so dass (a) weniger Theorie vorliegt und (b) es schwieriger ist, sie zu erfassen.


2

Ich bin überrascht zu sehen, dass das Gauß-Markov-Theorem in dieser langen Liste von Antworten nicht erwähnt wird.

In einem linearen Modell mit sphärischen Fehlern (das auf dem Weg keine Ausreißer über eine endliche Fehlervarianz voraussetzt) ​​ist OLS in einer Klasse linearer unverzerrter Schätzer effizient - es gibt (allerdings restriktive) Bedingungen, unter denen Sie können es nicht besser machen als OLS ".

Ich bin nicht der Meinung, dass dies die Verwendung von OLS fast immer rechtfertigen sollte, aber es trägt sicher zum Warum bei (zumal es eine gute Ausrede ist, sich so sehr auf OLS im Unterricht zu konzentrieren).


Nun ja, aber das setzt voraus, dass die Minimierung der Varianz das relevante Kriterium ist, und bei schweren Schwänzen ist dies möglicherweise nicht der Fall!
kjetil b halvorsen

1
Sicher. Ich wollte nur hinzufügen, was meiner Meinung nach der berühmteste Grund ist, zu der Liste der verständlichen Gründe, warum robuste Techniken es nicht ersetzt haben, OLS als nützliche Technik zu betrachten : Es gibt Fälle, in denen Sie es nicht ersetzen sollten.
Christoph Hanck

0

Meine Vermutung wäre, dass robuste Statistiken niemals ausreichen, dh um robust zu sein, überspringen diese Statistiken einige Informationen über die Verteilung. Und ich vermute, dass es nicht immer gut ist. Mit anderen Worten, es gibt einen Kompromiss zwischen Robustheit und Informationsverlust.

medicheinn({1,2,3,4,5})=3=medicheinn({0,1,0,2,3,4000,5000})

1
Unter stats.stackexchange.com/questions/74113/… finden Sie eine Situation, in der der Median hochgradig zerbrechlich ist und der Mittelwert sich sehr gut verhält.
Nick Cox
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.