Ist es besser, Verteilungen basierend auf Theorie, Anpassung oder etwas anderem auszuwählen?

Dies grenzt an eine philosophische Frage, aber ich bin daran interessiert, wie andere mit mehr Erfahrung über die Auswahl von Distributionen denken. In einigen Fällen scheint es klar zu sein, dass die Theorie am besten funktioniert (die Schwanzlängen von Mäusen sind wahrscheinlich normal verteilt). In vielen Fällen gibt es wahrscheinlich keine Theorie, um einen Datensatz zu beschreiben. Verwenden Sie also einfach etwas, das Ihren Vorstellungen entspricht, unabhängig davon, wofür es ursprünglich entwickelt wurde? Ich kann mir einige der Fallstricke vorstellen, die auftreten können, wenn Sie mit der einen oder der anderen Option arbeiten, und dann scheint es natürlich das Problem zu geben, dass Sie möglicherweise nur eine empirische Verteilung verwenden sollten, wenn Sie wirklich keine Ahnung haben.

Also denke ich, was ich wirklich frage: Hat jemand eine kohärente Art, sich diesem Problem zu nähern / darüber nachzudenken? Und gibt es Ressourcen, die Sie vorschlagen können, um dies zu behandeln?

distributions overfitting heuristic

— HFBrowning
quelle

Es kommt grundsätzlich darauf an, warum man eine Verteilung anpasst oder annimmt und was sie darstellen soll. Wir stellen auf dieser Website viele Fragen, bei denen es den Anschein hat, als müssten die Benutzer eine Verteilung an Daten oder abgeleitete Größen (wie Regressionsreste) anpassen, obwohl die Übung für die Lösung der tatsächlich auftretenden statistischen Probleme sinnlos (oder schlimmer, trügerisch) ist habe ist besorgt. Könnten Sie vielleicht die Art der Fälle klären, die Sie im Sinn haben?

— whuber

Hallo Whuber, danke für den Kommentar. Da ich angefangen habe, mich ein wenig mit probablistischer Risikobewertung zu beschäftigen, muss ich alle meine Daten an Verteilungen anpassen. Daher war ich neugierig darauf, eine einheitlichere Sicht auf die Auswahl von Verteilungen zu haben. Also ich denke , zu klären, ich bin in der Zeit nur wirklich interessiert , wenn Sie sollten eine Verteilung verwenden, und wie man richtig darüber gehen. Wie ich bereits sagte, waren einige Fälle von der Theorie her einfach, andere Male verwende ich eine empirische Verteilung, weil sie am besten zu sein scheint , aber meine Entscheidungen sind willkürlicher, als ich es gerne hätte.

— HFBrowning

Das ist eine interessante Dose Würmer, weil Sie (etwas abstrakt) wirklich versuchen, die Stichprobenunsicherheit durch eine Berechnung zu verbreiten. Der Grund für die Betrachtung des Verfahrens von dieser hohen Ebene aus ist, dass es einen fundamentalen Fehler aufdeckt, der häufig gemacht wird: Indem die Daten durch Verteilungen ersetzt werden, wird die Unsicherheit in den geschätzten Verteilungsparametern nicht berücksichtigt. Die Berücksichtigung dieses Sachverhalts wird von einigen Praktizierenden als "PRA zweiter Ordnung" bezeichnet. Ich möchte vorschlagen, dass Sie Ihre Frage einschränken, um sich auf diese Themen zu konzentrieren, anstatt allgemein nach Verteilungsanpassungen zu fragen.

— Whuber

Das Paket, das ich für meine PRA verwende, ist ein Monte- Carlo- Paket 2. Ordnung ( mc2d- Paket in R), daher ordne ich meine Verteilungen entweder als "Unsicherheit", "Variabilität" oder als beides zu. Hoffentlich bin ich für dieses Problem verantwortlich, so weit ich kann. Mein ursprüngliches Ziel für diese Frage war es jedoch, eine übergeordnete Sichtweise zu erhalten, und ich habe die Risikobewertung nur angesprochen, um einen Kontext für die Gründe meines Interesses anzugeben. Und vielleicht gibt es keinen besseren Weg als „manchmal Sie dies tun, manchmal hat man es zu tun auf diese Weise“ , aber ich habe gehofft , jemand Vorschläge hatte :) Vor allem , weil ich nicht ohne weiteres bestimmen kann , wann es besser sein könnte -

— HFBrowning

Dies ist definitiv der richtige Ort für Ihren Beitrag. Wollen Sie damit sagen, dass Sie Probleme bei der Bearbeitung haben? Im Übrigen bin ich gespannt, wie Ihre Verfahren die Unsicherheit bei der Verwendung der empirischen Verteilung quantifizieren. Es kommt auch mit Stichprobenvariabilität (die tiefgreifend sein kann, was bei Risikobewertungen oft am wichtigsten ist), obwohl Sie keine Parameter explizit geschätzt haben.

— whuber

Antworten:

Kommt auf jeden Fall darauf an, um welche Daten es sich handelt und wie viel man darüber weiß oder annehmen möchte. Wie @whuber kürzlich im Chat sagte : "Wenn es um physikalische Gesetze geht, können Sie fast immer vernünftige Vermutungen anstellen, wie die Daten angemessen modelliert werden können." (Ich vermute, das ist wahrer von ihm als von mir! Ich hoffe auch, dass dies nicht aus dem ursprünglichen Kontext heraus falsch angewendet wird ...) In Fällen, die eher einer latenten Konstruktmodellierung in den Sozialwissenschaften ähneln, ist es oft nützlich, sich auf diese zu konzentrieren empirische Verteilungen zum Verständnis der Nuancen weniger bekannter Phänomene. Es ist etwas zu einfach, eine Normalverteilung anzunehmen und eine Fehlanpassung in der Gesamtform als vernachlässigbar abzutun, und es ist ziemlich unangebracht, Ausreißer als fehlerhaft abzutun, ohne dass dies gerechtfertigt ist. '

Natürlich ist ein Großteil dieses Verhaltens auf die Annahmen der Analysen zurückzuführen, die angewendet werden sollen. Oft gehen die interessantesten Fragen weit über die Beschreibung oder Klassifizierung von Variablenverteilungen hinaus. Dies beeinflusst auch die richtige Antwort für ein bestimmtes Szenario. kann es Gründe geben (zB Strombedarf) eine Normalverteilung anzunehmen , wenn es nicht besonders gut paßt (noch Außenseiter zu schlecht), da nichtparametrischer und sonst robuste Methoden entweder perfektionieren nicht. Das Risiko, dies zu tun, besteht jedoch darin, die interessanten Fragen zu vergessen, die man über die Verteilung einer einzelnen Variablen stellen kann.

Betrachten Sie zum Beispiel die Beziehung zwischen Wohlstand und Glück: Eine beliebte Frage, die die Menschen im Allgemeinen stellen möchten. Es mag sicher sein anzunehmen, dass Wohlstand einer Gamma- Verteilung ^{(Salem & Mount, 1974)} oder einer allgemeinen Beta- Verteilung ^{(Parker, 1999)} folgt, aber ist es wirklich sicher anzunehmen, dass das Glück normal verteilt ist? Eigentlich sollte es nicht notwendig sein, dies anzunehmen, nur um die ursprüngliche Frage zu beantworten, aber manchmal tun es die Leute und ignorieren dann potenziell wichtige Themen wie Antwortverzerrungen und kulturelle Unterschiede. Beispielsweise neigen einige Kulturen dazu, mehr oder weniger extreme Antworten zu geben (siehe @ chls Antwort zur Faktoranalyse von Fragebögen, die aus Likert-Elementen bestehen ), und Normen variieren in Bezug auf den offenen Ausdruck positiver und negativer Emotionen ^{(Tucker, Ozer, Lyubomirsky & Boehm, 2006 )} . Dies kann die Wichtigkeit von Unterschieden in empirischen Verteilungseigenschaften wie Schiefe und Kurtosis erhöhen. Wenn ich das Verhältnis von Wohlstand zu subjektiven Bewertungen des Glücks in Russland, China und den USA vergleiche, möchte ich wahrscheinlich Unterschiede in den zentralen Tendenzen der Glücksbewertungen bewerten. In diesem Fall würde ich zögern, für eine Einweg-ANOVA normale Verteilungen für jede davon anzunehmen (auch wenn sie für Verstöße möglicherweise ziemlich robust ist), wenn es Grund zur Annahme gibt, dass in China eine "dickschwänzige" Verteilung, in Russland eine positiv verzerrte Verteilung und in den USA eine negativ verzerrte Verteilung aufgrund verschiedener kulturabhängiger Normen und Reaktionsverzerrungen besteht. Für einen Signifikanztest (obwohl ich wahrscheinlich ehrlich gesagt lieber nur die Effektgrößen angeben würde) würde ich lieber eine nichtparametrische Methode anwenden und um das subjektive Glück in jeder Population einzeln zu verstehen Beschreiben Sie die Verteilung eher empirisch, als sie als einfache theoretische Verteilung zu kategorisieren, und ignorieren oder beschönigen Sie jede Fehlanpassung. Das ist eine Verschwendung von Informationen, IMO.

^{Referenzen

- Parker, SC (1999). Das verallgemeinerte Beta als Modell für die Einkommensverteilung. Economics Letters, 62 (2), 197–200.

- Salem, ABZ & Mount, TD (1974). Ein bequemes beschreibendes Modell der Einkommensverteilung: Die Gammadichte. Econometrica, 42 (6), 1115–1127.

- Tucker, KL, Ozer, DJ, Lyubomirsky, S. & Boehm, JK (2006). Testen auf Messinvarianz in der Zufriedenheit mit der Lebensskala: Ein Vergleich von Russen und Nordamerikanern. Social Indicators Research, 78 (2), 341–360. Abgerufen von http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf .}

— Nick Stauner
quelle

Danke für deine Antwort, Nick. Ich fand das Beispiel besonders hilfreich.

— HFBrowning

Die Schwanzlängen der Mäuse sind wahrscheinlich normal verteilt

Das würde ich bezweifeln. Normalverteilungen entstehen durch viele unabhängige additive Effekte. Biologische Systeme bestehen aus vielen wechselwirkenden Rückkopplungsschleifen (interabhängige multiplikative Effekte). Es gibt auch oft Staaten, die stabiler sind als andere (dh Attraktoren). Eine Art langschwänzige oder multimodale Verteilung würde also wahrscheinlich die Schwanzlängen beschreiben. Tatsächlich ist die Normalverteilung wahrscheinlich eine sehr schlechte Standardauswahl, um irgendetwas Biologisches zu beschreiben, und ihr Missbrauch ist für die vielen "Ausreißer" verantwortlich, über die in dieser Literatur berichtet wird. Die Verbreitung dieser Verbreitung in der Natur ist ein Mythos und nicht nur im Sinne von "Perfekte Kreise gibt es nicht wirklich". Daraus folgt jedoch nicht, dass der Mittelwert und der SD als zusammenfassende Statistik unbrauchbar sind.

Vor allem, weil ich nicht ohne Weiteres feststellen kann, wann es besser ist, "den Daten zu vertrauen" (wie dieser funky rechtsgerichtete Datensatz, den ich habe, aber n = 160, wenn die Daten nicht ausreichend erscheinen) und empirisch zu gehen, oder passen Sie es an eine Beta-Distribution an, wie ein Kollege von mir immer darauf besteht. Ich habe vermutet, dass er das nur gewählt hat, weil es an [0,1] gebunden ist. Es scheint alles nur ad hoc zu sein. Hoffentlich klärt dies meine Absicht!

Die Anpassung empirischer Verteilungen liefert Hinweise auf den zugrunde liegenden Prozess, was die Entwicklung theoretischer Verteilungen erleichtert. Dann wird die theoretische Verteilung mit den empirischen Verteilungen verglichen, um die Beweise für die Theorie zu testen.

Wenn Ihr Ziel darin besteht, die Wahrscheinlichkeit bestimmter Ergebnisse auf der Grundlage der verfügbaren Daten zu beurteilen, und Sie keinen Grund haben, diese bestimmte Verteilung zu wählen, sehe ich nicht, wie hilfreich es sein könnte, zusätzliche Annahmen zu treffen. Stattdessen scheint es die Sache zu verwirren.

Wenn Sie jedoch versuchen, die Daten zu beschreiben oder zusammenzufassen, ist es möglicherweise sinnvoll, die Verteilung anzupassen.

— Livid
quelle

Obwohl ich nur eine Antwort akzeptieren kann, möchte ich Ihnen dafür danken, dass Sie darauf hingewiesen haben, wie Normalverteilungen tatsächlich entstehen. Es zwang mich, genauer darüber nachzudenken, was es bedeutet, wenn etwas auf Theorie basiert.

— HFBrowning

In einigen Fällen scheint es klar zu sein, dass die Theorie am besten funktioniert (die Schwanzlängen von Mäusen sind wahrscheinlich normal verteilt).

Schwanzlängen sind sicherlich nicht normal verteilt.

Normalverteilungen haben eine Wahrscheinlichkeit ungleich Null, negative Werte anzunehmen. Schwanzlängen nicht.

Die berühmte Linie von George Box , " alle Modelle sind falsch, aber einige sind nützlich ", macht den Punkt ziemlich gut. Fälle, in denen wir die Normalität vernünftigerweise behaupten könnten (und nicht nur die ungefähre Normalität), sind in der Tat sehr selten, beinahe legendäre Wesen, Miragen, die gelegentlich fast aus dem Augenwinkel erblickten.

In vielen Fällen gibt es wahrscheinlich keine Theorie, um einen Datensatz zu beschreiben. Verwenden Sie also einfach etwas, das Ihren Vorstellungen entspricht, unabhängig davon, wofür es ursprünglich entwickelt wurde?

In Fällen, in denen die Mengen, an denen Sie interessiert sind, nicht besonders von der Auswahl abhängen (sofern die allgemeinen Merkmale der Distribution mit den bekannten übereinstimmen), können Sie einfach etwas verwenden, das recht gut passt.

In Fällen, in denen ein höheres Maß an Sensibilität vorhanden ist, reicht es nicht aus, nur etwas zu verwenden, das passt. Möglicherweise verwenden wir einen Ansatz, der keine besonderen Annahmen trifft (z. B. verteilungsfreie Prozeduren wie Permutation, Bootstrapping oder andere Resampling-Ansätze oder robuste Prozeduren). Alternativ können wir die Empfindlichkeit für die Verteilungsannahme quantifizieren, z. B. durch Simulation (in der Tat halte ich dies im Allgemeinen für eine gute Idee).

es scheint das problem zu geben, dass du vielleicht nur eine empirische verteilung verwenden solltest, wenn du wirklich keine ahnung hast.

Ich würde das nicht als problembasierenden Rückschluss auf empirische Verteilungen bezeichnen, sondern als legitimen Ansatz, der für viele Arten von Problemen geeignet ist (Permutation / Randomisierung und Bootstrapping sind zwei Beispiele).

Hat jemand eine kohärente Herangehensweise an dieses Problem?

Im Großen und Ganzen neige ich in vielen Fällen dazu, Fragen zu prüfen wie:

1) Was verstehe ich * darüber, wie sich Mittelwerte (oder andere standortbezogene Mengen) für Daten dieses Formulars verhalten?

* (ob aus der Theorie oder aus der Erfahrung mit dieser Art von Daten oder aus Expertenratschlägen oder erforderlichenfalls aus den Daten selbst, obwohl dies Probleme mit sich bringt, mit denen man sich befassen muss)

2) Was ist mit der Streuung (Varianz, IQR usw.) - wie verhält es sich?

3) Was ist mit anderen Verteilungsmerkmalen (Grenzen, Schiefe, Diskretion usw.)?

4) Was ist mit Abhängigkeit, Heterogenität der Populationen, Tendenz zu gelegentlich sehr unterschiedlichen Werten usw

Diese Art von Überlegung könnte die Wahl zwischen einem normalen Modell, einem GLM, einem anderen Modell oder einem robusten oder verteilungsfreien Ansatz (wie Bootstrapping oder Permutations- / Randomisierungsansätzen, einschließlich rangbasierter Verfahren) leiten.

— Glen_b - Setzen Sie Monica wieder ein
quelle