Bei der Lösung von Geschäftsproblemen mithilfe von Daten wird häufig davon ausgegangen, dass mindestens eine der Annahmen, die die klassischen Statistiken untermauern, ungültig ist. Meistens stört sich niemand daran, diese Annahmen zu überprüfen, so dass Sie es nie wirklich wissen.
Zum Beispiel ist die Tatsache, dass so viele der gängigen Web-Metriken (im Verhältnis zur Normalverteilung) "long-tailed" sind, mittlerweile so gut dokumentiert, dass wir dies für selbstverständlich halten. Ein weiteres Beispiel sind Online-Communities - selbst in Communities mit Tausenden von Mitgliedern ist gut dokumentiert, dass der weitaus größte Anteil des Beitrags zu / der Teilnahme an vielen dieser Communitys auf eine winzige Gruppe von „Super-Contributors“ zurückzuführen ist. (ZB veröffentlichte ein StackOverflow- Mitglied vor einigen Monaten, kurz nachdem die SO-API in der Beta verfügbar gemacht wurde, eine kurze Analyse der Daten, die er über die API gesammelt hatte. Seine Schlussfolgerung: Weniger als ein Prozent der SO-Mitglieder machen den größten Teil aus die Aktivität auf SO (vermutlich Fragen stellen und beantworten), weitere 1-2% machten den Rest aus, und die überwiegende Mehrheit der Mitglieder tut nichts).
Verteilungen dieser Art - wieder häufiger die Regel als die Ausnahme - lassen sich häufig am besten mit einer Potenzgesetzdichtefunktion modellieren . Für diese Art von Verteilungen ist es problematisch, sogar den zentralen Grenzwertsatz anzuwenden.
Angesichts der Fülle solcher Populationen, die für Analysten von Interesse sind, und angesichts der Tatsache, dass klassische Modelle mit diesen Daten nachweislich schlecht abschneiden, und angesichts der Tatsache, dass robuste und resistente Methoden schon eine Weile existieren (mindestens 20 Jahre, glaube ich) - warum Werden sie nicht öfter benutzt? (Ich frage mich auch, warum ich sie nicht öfter benutze, aber das ist keine wirkliche Frage für CrossValidated .)
Ja, ich weiß, dass es Lehrbuchkapitel gibt, die sich ausschließlich mit robusten Statistiken befassen, und ich weiß, dass es (einige) R-Pakete gibt ( Robustbase ist das, mit dem ich vertraut bin und das ich verwende) usw.
Angesichts der offensichtlichen Vorteile dieser Techniken sind sie jedoch häufig eindeutig die besseren Werkzeuge für den Job - warum werden sie nicht viel häufiger eingesetzt ? Sollten wir nicht damit rechnen, dass robuste (und resistente) Statistiken im Vergleich zu den klassischen Analoga weitaus häufiger (vielleicht sogar mutmaßlich) verwendet werden?
Die einzige wesentliche (dh technische) Erklärung, die ich gehört habe, ist, dass robusten Techniken (ebenfalls für resistente Methoden) die Kraft / Empfindlichkeit klassischer Techniken fehlt. Ich weiß nicht, ob dies tatsächlich in einigen Fällen zutrifft, aber ich weiß, dass es in vielen Fällen nicht zutrifft.
Ein letztes Wort zur Präferenz: Ja, ich weiß, dass diese Frage keine einzige nachweislich richtige Antwort hat. Sehr wenige Fragen auf dieser Site. Darüber hinaus ist diese Frage eine echte Untersuchung; Es ist kein Vorwand, eine Sichtweise vorzubringen - ich habe hier keine Sichtweise, nur eine Frage, auf die ich einige einsichtige Antworten erhoffe.