Warum erfordern Bayes'sche Methoden keine mehrfachen Testkorrekturen?


22

Andrew Gelman schrieb einen ausführlichen Artikel darüber, warum beim Testen von Bayesian AB keine Korrektur mehrerer Hypothesen erforderlich ist: Warum wir uns (normalerweise) keine Sorgen über mehrere Vergleiche machen müssen , 2012.

Ich verstehe nicht ganz: Warum erfordern Bayes'sche Methoden keine mehrfachen Testkorrekturen?

A ~ Distribution1 + Common Distribution
B ~ Distribution2 + Common Distribution
C ~ Distribution3 + Common Distribution
Common Distribution ~ Normal

Mein Verständnis ist, dass der oben gezeigte Bayes'sche Ansatz die gemeinsame zugrunde liegende Verteilung aller Hypothesen erklärt (im Gegensatz zu einer häufig auftretenden Bonferroni-Korrektur). Ist meine Argumentation richtig?



5
Patricks Links sind zwar sehr hilfreich, aber es wäre großartig, eine in sich geschlossene Antwort zu sehen, die sich an den "mäßig statistisch versierten wissenschaftlichen Gutachter" richtet.
Vermutungen

Antworten:


14

Eine seltsame Möglichkeit zur Beantwortung der Frage ist die Feststellung, dass die Bayes'sche Methode keine Möglichkeit bietet, dies zu tun, da die Bayes'schen Methoden mit anerkannten Beweisregeln übereinstimmen und die Methoden des Frequentismus häufig im Widerspruch zu diesen stehen. Beispiele:

  • Bei häufig auftretenden Statistiken muss der Vergleich von Behandlung A mit B für den Vergleich von Behandlung C und D wegen familienbezogener Überlegungen zu Fehlern des Typs I benachteiligt werden. mit Bayesian steht der AB-Vergleich für sich.
  • Für sequentielle Frequentist-Tests sind in der Regel Strafen für mehrere Datenprüfungen erforderlich. In einer Gruppensequenz muss ein früher Vergleich für A vs B für einen späteren Vergleich, der noch nicht durchgeführt wurde, bestraft werden, und ein späterer Vergleich muss für einen früheren Vergleich bestraft werden, selbst wenn der frühere Vergleich den Verlauf des Vergleichs nicht verändert hat Studie.

Das Problem ergibt sich aus der Umkehrung des Zeit- und Informationsflusses durch den Frequentisten, sodass der Frequentist überlegen muss, was hätte passieren können, anstatt was passiert ist . Im Gegensatz dazu verankern die Bayes'schen Bewertungen alle Bewertungen in der vorherigen Verteilung, wodurch die Evidenz kalibriert wird. Beispielsweise kalibriert die vorherige Verteilung für die AB-Differenz alle zukünftigen Bewertungen von AB und muss CD nicht berücksichtigen.

Bei sequentiellen Tests herrscht große Verwirrung darüber, wie Punktschätzungen angepasst werden sollen, wenn ein Experiment vorzeitig mit häufigem Rückschluss beendet wird. In der Bayes'schen Welt "zieht" sich der Vorherige bei allen Punktschätzungen zurück, und die aktualisierte hintere Verteilung gilt für die Inferenz zu jedem Zeitpunkt und erfordert keine komplexen Überlegungen zum Probenraum.


4
Ich verstehe dieses Argument nicht wirklich. Wenn wir 1000 verschiedene Vergleiche mit einem üblichen frequentistischen Ansatz durchführen, sollten wir natürlich auch unter Null mit etwa 50 signifikanten Effekten mit p <0,05 rechnen. Daher die Korrekturen. Wenn wir stattdessen die Bayes'sche Schätzung / Prüfung verwenden und für alle Vergleiche einen Prior (um 0?) Haben, dann schrumpft der Prior zwar die Seitenzähne gegen Null, aber wir würden immer noch zufällig variierende Seitenzähne und / oder Bayes-Faktoren haben und werden wahrscheinlich einige haben Fälle von 1000, die wie "substanzielle" Effekte aussehen, selbst wenn die wahren Effekte alle Null sind.
Amöbe sagt Reinstate Monica

1
2100021000-1

1
Entschuldigung, @probabilityislogic, ich bin nicht sicher, ob ich Ihren Punkt verstanden habe. Fair genug über "alle Alternativen", aber was passiert in der Praxis? Wie gesagt, wir schätzen 1000 Gruppendifferenzen (zum Beispiel); Wir haben einen Vorrang vor Gruppenunterschieden. Wir erhalten 1000 Posterioren, 95% glaubwürdige Intervalle oder was auch immer. Dann überprüfen wir jedes glaubwürdige Intervall, ob es weit genug von Null entfernt ist, um einen "bedeutungsvollen / substanziellen" Effekt zu erzielen. Wenn wir dies 1000 Mal machen, haben wir wahrscheinlich einige "False Positives" in dem Sinne, dass einige Effekte groß erscheinen, selbst wenn alle 1000 Effekte tatsächlich gleich Null sind. Nein?
Amöbe sagt Reinstate Monica

1
1000

1
@probabilityislogic: Nun, ich bin absolut für Mehrebenenmodelle, obwohl ich sie nicht unbedingt als Bayes'sches Werkzeug betrachte - gemischte Modelle und ANOVAs mit zufälligen Effekten werden häufig zusammen mit T-Tests und so weiter verwendet ...
Amöbe sagt Reinstate Monica

6

Diese Art von hierarchischem Modell verkleinert die Schätzungen und reduziert die Anzahl falscher Behauptungen für eine kleine bis mäßige Anzahl von Hypothesen auf ein vernünftiges Maß. Garantiert es eine bestimmte Fehlerrate des Typs I? Nein.

Dieser spezielle Vorschlag von Gelman (der das Problem anerkennt, zu viele verschiedene Dinge zu betrachten und dann zu leicht fälschlicherweise zu dem Schluss kommt, dass Sie für einige davon etwas sehen - in der Tat eines seiner Lieblingsthemen in seinem Blog), unterscheidet sich von der extremen Alternative Sichtweise, die besagt, dass Bayes'sche Methoden keine Multiplizität berücksichtigen müssen, denn alles, was zählt, ist Ihre Wahrscheinlichkeit (und Ihre vorherige).


1
(+1) Nach meinem Kenntnisstand bietet die Bayes'sche Inferenz in einigen wenigen Fällen (z. B. undimensional mit vorheriger Übereinstimmung) keine Kontrolle über die Fehlerrate des Typs 1. Die Mehrfachprüfkorrektur in der Bayes'schen Einstellung kann daher nicht als Korrektur für einen Typ-1-Fehler angesehen werden.
peuhp


6

Sehr interessante Frage, hier ist meine Meinung dazu.

Es geht darum, Informationen zu codieren und dann die Bayes'sche Kurbel zu drehen. Es scheint zu schön, um wahr zu sein - aber beide sind schwieriger als sie scheinen.

Ich beginne mit der Frage

Welche Informationen werden verwendet, wenn wir uns über mehrere Vergleiche Gedanken machen?

Ich kann an einige denken - das erste ist "Datenbaggern" - testen Sie "alles", bis Sie genug Pässe / Fehler erhalten (ich würde denken, dass fast jede Statistik ausgebildete Person diesem Problem ausgesetzt wäre). Sie haben auch weniger unheimliche, aber im Wesentlichen das gleiche "Ich habe so viele Tests durchzuführen - sicherlich kann nicht alles richtig sein".

Nachdem ich darüber nachgedacht habe, stelle ich fest, dass Sie nicht viel über bestimmte Hypothesen oder Vergleiche hören. Es geht nur um die "Sammlung" - dies löst meine Überlegungen zur Austauschbarkeit aus - die Hypothese, die verglichen wird, ist in gewisser Weise "ähnlich". Und wie verschlüsselt man die Austauschbarkeit in eine Bayes'sche Analyse? - Hyper-Priors, gemischte Models, zufällige Effekte usw. !!!

Die Austauschbarkeit bringt Sie jedoch nur teilweise dorthin. Ist alles austauschbar? Oder haben Sie "Sparsity" - wie zum Beispiel nur wenige Nicht-Null-Regressionskoeffizienten mit einem großen Pool von Kandidaten. Gemischte Modelle und normalverteilte zufällige Effekte funktionieren hier nicht. Sie bleiben zwischen Quetschgeräuschen und unberührten Signalen "hängen" (z. B. lassen Sie in Ihrem Beispiel die Parameter locationB und locationC "true" gleich und setzen Sie den Parameter locationA "true" beliebig groß oder klein, und beobachten Sie, wie das standardmäßige lineare gemischte Modell versagt.) . Aber es kann behoben werden - zB mit "Spike and Slab" -Prioren oder "Horse Shoe" -Prioren.

Es geht also mehr darum, zu beschreiben, um welche Art von Hypothese es sich handelt und wie viele bekannte Merkmale sich im Stand und in der Wahrscheinlichkeit widerspiegeln. Andrew Gelmans Ansatz ist nur eine Möglichkeit, eine breite Klasse von Mehrfachvergleichen implizit zu behandeln. Genau wie bei den kleinsten Quadraten funktionieren Normalverteilungen in den meisten Fällen (aber nicht bei allen) gut.

In Bezug auf die Funktionsweise könnte man sich eine Person vorstellen, die wie folgt argumentiert: Gruppe A und Gruppe B haben möglicherweise den gleichen Mittelwert. Ich habe mir die Daten angesehen und die Mittelwerte sind "nah". Daher, um eine bessere Schätzung zu erhalten Für beide sollte ich die Daten bündeln, da ich anfangs dachte, dass sie den gleichen Mittelwert haben. - Wenn sie nicht gleich sind, liefern die Daten den Beweis, dass sie "nah" sind, so dass das Zusammenfassen von "ein bisschen" mich nicht allzu sehr verletzt, wenn meine Hypothese falsch war (a la alle Modelle sind falsch, einige sind nützlich).

Beachten Sie, dass alle oben genannten Punkte von der anfänglichen Annahme abhängen, dass sie gleich sein könnten. Nehmen Sie das weg, und es gibt keine Rechtfertigung für das Zusammenlegen. Sie können wahrscheinlich auch eine "normalistische Verteilung" sehen, wenn Sie über die Tests nachdenken. "Null ist am wahrscheinlichsten", "wenn nicht Null, dann ist nahe Null am wahrscheinlichsten", "Extremwerte sind unwahrscheinlich". Betrachten Sie diese Alternative:

  • Mittelwerte von Gruppe A und Gruppe B können gleich sein, sie können sich jedoch auch drastisch unterscheiden

Dann ist das Argument, "ein bisschen" zu bündeln, eine sehr schlechte Idee. Sie sind besser dran, wenn Sie Total Pooling oder Zero Pooling wählen. Vielmehr wie ein Cauchy, Spike & Slab, Art der Situation (viel Masse um Null und viel Masse für extreme Werte)

Der gesamte mehrfache Vergleich muss nicht behandelt werden, da der Bayes'sche Ansatz die Informationen einbezieht, die dazu führen , dass wir uns Sorgen über den Stand und / oder die Wahrscheinlichkeit machen . In gewisser Hinsicht ist es eher eine Erinnerung daran, richtig darüber nachzudenken, welche Informationen für Sie verfügbar sind, und sicherzustellen, dass Sie sie in Ihre Analyse aufgenommen haben.


2
l1exp(-|x|)

@StasK - l1 würde besser funktionieren, aber da es log-konkav ist, würde es mit spärlichen Nicht-Nullen zu kämpfen haben. Die von mir erwähnten sind alle log-konvex. Eine nahe Variante zu l1 ist das verallgemeinerte Doppelpareto - erhalten Sie, indem Sie eine Mischung von Laplace-Skalenparametern (ähnlich dem adaptiven Lasso in ML-Sprache) nehmen
Wahrscheinlichkeitsanalyse

5

Erstens, da ich das von Ihnen vorgestellte Modell verstehe, denke ich, dass es ein bisschen anders ist als der Vorschlag von Gelman. Es sieht eher so aus:

A ~ Distribution(locationA)
B ~ Distribution(locationB)
C ~ Distribution(locationC)

locationA ~ Normal(commonLocation)
locationB ~ Normal(commonLocation)
locationC ~ Normal(commonLocation)

commonLocation ~ hyperPrior

In der Praxis sind durch Hinzufügen dieses commonLocationParameters die Rückschlüsse auf die Parameter der 3 Verteilungen (hier Positionen 1, 2 und 3) nicht mehr voneinander unabhängig. Darüber hinaus besteht die commonLocationTendenz, die Erwartungswerte der Parameter auf einen zentralen (allgemein geschätzten) Wert zu verringern. In gewissem Sinne funktioniert es als Regularisierung über alle Schlussfolgerungen, wodurch die Notwendigkeit einer Korrektur für eine Mehrfachkorrektur nicht erforderlich ist (wie in der Praxis führen wir eine einzige multivariate Schätzungsberechnung aus der Interaktion zwischen jedem von ihnen durch die Verwendung eines Modells durch).

Wie aus der anderen Antwort hervorgeht, bietet diese Korrektur keine Kontrolle über den Fehler vom Typ I, aber in den meisten Fällen bietet die Bayes'sche Methode keine solche Kontrolle, selbst bei der einzelnen Inferenzskala, und die Korrektur für den Mehrfachvergleich muss im Bayes'schen Verfahren anders gedacht werden Rahmen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.