Liste der Situationen, in denen ein Bayes-Ansatz einfacher, praktischer oder praktischer ist

63

Innerhalb der Statistik gab es viele Debatten zwischen Bayesianern und Frequentisten. Im Allgemeinen finde ich diese eher abstoßend (obwohl ich denke, dass es abgeklungen ist). Auf der anderen Seite habe ich einige Leute getroffen, die das Problem völlig pragmatisch beurteilen, und gesagt haben, dass es manchmal bequemer ist, eine frequentistische Analyse durchzuführen, und manchmal ist es einfacher, eine Bayes'sche Analyse durchzuführen. Ich finde diese Perspektive praktisch und erfrischend.

Mir fällt ein, dass es hilfreich wäre, eine Liste solcher Fälle zu haben. Weil es zu viele statistische Auswertungen gibt und ich davon ausgehe, dass es in der Regel praktischer ist, eine Frequentist-Analyse durchzuführen (das Codieren eines t-Tests in WinBUGS ist erheblich aufwendiger als der einzelne Funktionsaufruf, der für die Ausführung der auf Frequentisten basierenden Version in R erforderlich ist Zum Beispiel wäre es schön, eine Liste der Situationen zu haben, in denen ein Bayes-Ansatz einfacher, praktischer und / oder praktischer ist als ein frequentistischer Ansatz.

(Zwei Antworten, an denen ich kein Interesse habe, sind: 'immer' und 'nie'. Ich verstehe, dass die Leute eine starke Meinung haben, aber lasse sie bitte hier nicht aus. Wenn dieser Thread zu einem Schauplatz für kleine Streitereien wird, werde ich wahrscheinlich streichen Mein Ziel hier ist es, eine Ressource zu entwickeln, die für einen Analytiker nützlich ist, der einen Job zu erledigen hat, nicht eine Axt zum Schleifen.)

Menschen können gerne mehr als einen Fall vorschlagen, verwenden Sie dazu jedoch separate Antworten, damit jede Situation einzeln bewertet (abgestimmt / diskutiert) werden kann. Die Antworten sollten aufführen: (1) wie die Situation aussieht und (2) warum der Bayes'sche Ansatz in diesem Fall einfacher ist. Ein Code (z. B. in WinBUGS), der zeigt, wie die Analyse durchgeführt wird und warum die Bayes'sche Version praktischer ist, wäre ideal, aber ich erwarte, dass er zu umständlich sein wird. Wenn es einfach geht, würde ich es begrüßen, aber bitte erläutern, warum .

Schließlich erkenne ich, dass ich nicht definiert habe, was es bedeutet, dass ein Ansatz „einfacher“ als ein anderer ist. Die Wahrheit ist, ich bin nicht ganz sicher, was es bedeuten sollte, wenn ein Ansatz praktischer ist als der andere. Ich bin offen für verschiedene Vorschläge. Geben Sie einfach Ihre Interpretation an, wenn Sie erklären, warum eine Bayes'sche Analyse in der von Ihnen diskutierten Situation praktischer ist.

bayesian frequentist

— gung - Setzen Sie Monica wieder ein
quelle

7

Die mehrstufige Modellierung ist für Bayesian definitiv einfacher, insbesondere konzeptionell.

— Wahrscheinlichkeitslogik

Dem Fragesteller gefällt dies vielleicht nicht, aber es gibt kein Umgehen, wenn er darüber nachdenkt und versteht, was die Inferenz- oder Modellierungsmethoden tatsächlich tun und wie sie zu interpretieren sind. Es macht wenig Sinn zu suchen, was einfacher ist, wenn sie unterschiedliche Ziele erreichen.

1

Mir geht es gut mit dem Rat, klar darüber nachzudenken, was Sie versuchen und wie die Analysen funktionieren, @Mayo. Ich habe diesen Rat selbst gegeben ;-). Ich bin auch mit der Vorstellung vertraut, dass Bayesianische und frequentistische Analysen unterschiedliche Annahmen über die Art der Wahrscheinlichkeit treffen. Wie ich jedoch in der Frage bemerkte, habe ich mehrere Personen getroffen (dh Doktoranden, die die Themen sehr gut verstehen), die sagen, dass es Zeiten gibt, in denen sie sich ausreichend ähneln und dass 1 praktischer ist. Die anderen Antworten zeigen, dass es möglich ist, solche Beispiele zu nennen. Ich würde gerne weitere Fälle sehen, von denen Sie wissen.

— gung - Wiedereinsetzung von Monica

Nur neugierig - wenn Sie sagen, dass "Frequentist Analysis ist praktischer", sprechen Sie über die Software - wie die Verwendung lm ()in R, die einfacher zu verwenden ist? Oder gibt es noch etwas anderes?

— Wahrscheinlichkeitslogik

@ Wahrscheinlichkeitslogik, im Wesentlichen. In meinem Beispiel wird t.test()ein Bayes'scher t-Test in WinBUGS verwendet, der wesentlich mehr Code erfordert , als dies bei der Codierung der Fall ist. Vielleicht hätte ich statt "praktischer" "einfacher" sagen sollen.

— gung - Wiedereinsetzung von Monica

26

(1) In Kontexten, in denen die Wahrscheinlichkeitsfunktion (zumindest numerisch) nicht realisierbar ist, hat die Verwendung des Bayes'schen Ansatzes mittels Approximate Bayesian Computation (ABC) gegenüber einigen häufigeren Konkurrenten wie zusammengesetzten Wahrscheinlichkeiten ( 1 , 2 ) an Boden gewonnen. oder die empirische Wahrscheinlichkeit, weil es in der Regel einfacher zu implementieren ist (nicht unbedingt richtig). Aus diesem Grund ist die Verwendung von ABC in Bereichen populär geworden, in denen es üblich ist, auf unlösbare Wahrscheinlichkeiten wie Biologie , Genetik und Ökologie zu stoßen . Hier könnten wir einen Ozean von Beispielen nennen.

Einige Beispiele für unlösbare Wahrscheinlichkeiten sind

Überlagerte Prozesse. Cox und Smith (1954) schlugen im Kontext der Neurophysiologie ein Modell vor, das aus überlagerten Punktprozessen besteht. Betrachten Sie zum Beispiel die Zeiten zwischen den elektrischen Impulsen, die an einem Teil des Gehirns beobachtet wurden und von mehreren Neuronen während eines bestimmten Zeitraums ausgesendet wurden. Diese Stichprobe enthält nicht-id-Beobachtungen, die es schwierig machen, die entsprechende Wahrscheinlichkeit zu berechnen, was die Schätzung der entsprechenden Parameter kompliziert. Eine (teilweise) frequentistische Lösung wurde kürzlich in diesem Artikel vorgeschlagen . Die Umsetzung des ABC - Ansatz wurde auch kürzlich untersucht und es kann gefunden werden hier . $N$
Die Populationsgenetik ist ein weiteres Beispiel für Modelle, die zu unlösbaren Wahrscheinlichkeiten führen. In diesem Fall hat die Unlösbarkeit einen anderen Charakter: Die Wahrscheinlichkeit wird in Form eines mehrdimensionalen Integrals (manchmal mit der Dimension ) was einige Jahrzehnte dauern würde, um es an einem einzelnen Punkt zu bewerten. Dieser Bereich ist wahrscheinlich der Hauptsitz von ABC. $1000+$

— user10525
quelle

1

Das sind großartig! Kannst du sie in 2 Antworten aufteilen (damit ich dich zweimal bewerten kann ;-) und nur ein typisches (Spielzeug-) Beispiel liefern? Vielen Dank.

— gung - Wiedereinsetzung von Monica

2

@Procrastinator Könnten Sie etwas näher erläutern, warum die Wahrscheinlichkeit in manchen Zusammenhängen nicht zu bewältigen ist? Angesichts der Tatsache, dass Sie Biologie, Genetik und Ökologie erwähnen, stelle ich mir vor, dass dies mit den komplexen Abhängigkeiten zwischen Parametern zusammenhängt. Ich denke, dies wäre besonders nützlich für Leute, die mit der Bayes'schen Analyse (von der ich bin) nicht vertraut sind, insbesondere angesichts der Tatsache, dass die Wikipedia-Seite über ABC, auf die Sie verlinken, nicht viel Kontext bietet. Vielen Dank

— Antoine Vernet

15

Mit der Verbesserung der Bayes'schen Software wird das Problem der einfacheren Anwendung umstritten. Bayesianische Software wird immer einfacher verpackt. Ein aktuelles Beispiel stammt aus einem Artikel mit dem Titel: Die Bayes'sche Schätzung ersetzt den t-Test . Die folgende Website enthält Links zu dem Artikel und der Software: http://www.indiana.edu/~kruschke/BEST/

Ein Auszug aus der Einleitung des Artikels:

... einige Leute haben den Eindruck, dass Schlussfolgerungen aus NHST- und Bayes-Methoden in einfachen Situationen wie dem Vergleich zweier Gruppen eher übereinstimmen: „Wenn sich Ihre Hauptinteresse also einfach in einer Form ausdrücken lässt, die sich zum Testen eignet, sagen wir Es ist wirklich nicht nötig, die gesamte Bayes'sche Maschinerie auf ein so einfaches Problem anzuwenden “(Brooks, 2003, S. 2694). Dieser Artikel zeigt im Gegenteil, dass die Bayes'sche Parameterschätzung wesentlich umfangreichere Informationen liefert als der NHST t -Test und dass seine Schlussfolgerungen von denen des NHST t -Tests abweichen können. Entscheidungen, die auf der Bayes'schen Parameterschätzung basieren, sind fundierter als Entscheidungen, die auf der NHST basieren, unabhängig davon, ob die von beiden Methoden abgeleiteten Entscheidungen übereinstimmen oder nicht.

— John K. Kruschke
quelle

10

Ich nehme an, Ihre Antwort ist entweder immer oder "es wird immer bald". Dies ist die Antwort eines bayesianischen Partisanen.

— gung - Wiedereinsetzung von Monica

3

Und hier ist eine Online-Javascript-Implementierung von Kruschke's BEST. Bayesianische Analyse im Browser :) sumsar.net/best_online

— Rasmus Bååth

13

$\theta=P(X<Y)$ $X$ $Y$ $X$ $Y$ $\theta$

$X$ $f(x;\xi_1)$ $F(x;\xi_1)$ $Y$ $g(y;\xi_2)$ $G(y;\xi_2)$

\begin{matrix} (⋆) & θ = \int F (y; ξ_{1}) g (y; ξ_{2}) d y . \end{matrix}

$\theta = \int F(y;\xi_1)g(y;\xi_2)dy. \tag{$\star$}$

$(\xi_1,\xi_2)$ $\theta$

$(\xi_1,\xi_2)$ $(\star)$ $\theta$

— user10525
quelle

4

+1 auf beide Antworten - das sind interessante Beispiele. Sie scheinen jedoch anzunehmen, dass die frequentistische Lösung auf der Wahrscheinlichkeit beruht und nichtparametrische Methoden scheinbar ignoriert. In diesem speziellen Fall scheinen mir die nichtparametrischen frequentistischen Methoden von Kapitel 5 in dem Buch, mit dem Sie verlinkt haben, mindestens so einfach zu sein wie die Bayes'schen Methoden.

— MånsT

@ MånsT Guter Punkt. In der Tat konzentriert sich diese Antwort auf die bayesianische vs. wahrscheinlichkeitsbasierte Inferenz. Ich habe vor einiger Zeit eine Antwort auf eine nicht-parametrische Lösung dieses Problems geschrieben, die, wie Sie hervorheben, so einfach ist wie der Bayes'sche Ansatz.

@ MånsT & Procrastinator, das hatte ich auch hochgestuft. Mir ist nicht klar, was "am einfachsten" im Zusammenhang mit dieser Frage / den Kommentaren bedeuten soll, die ich im Laufe der Jahre gemacht habe, die mich dazu veranlasst haben. Meistens wollte ich Antworten ausschließen, bei denen der Analytiker eine theoretische Position hat, so dass man aus Gründen, die nichts mit der Situation zu tun haben, immer besser ist. Eine solche Position ist natürlich vertretbar, und es gibt viele Stellen im Internet, an denen solche Argumente angezeigt werden können (einschließlich einiger im Lebenslauf), aber davon abgesehen hielt ich es für interessant, einen Ort zu haben, an dem die Leute Fälle auflisten, in denen sie vorkommen würde den anderen benutzen und warum.

— gung - Wiedereinsetzung von Monica

13

Ich bin in frequentistischen Statistik (Ökonometrie tatsächlich) trainiert, aber ich habe noch nie eine konfrontative Haltung gegenüber dem Bayes - Ansatz hatte, seit meiner Sicht ist , dass die philosophische Quelle dieses „epischen“ Kampfes von Anfang an grundsätzlich fehlgeleitet war (ich gelüftet habe meine Ansichten hier ). Tatsächlich plane ich, mich in naher Zukunft auch im Bayes'schen Ansatz zu schulen.

Warum? Da einer der Aspekte der frequentistischen Statistiken , die mich am meisten als mathematische und konzeptionelle Bestreben, zugleich fasziniert es stört mich am meisten: Probengröße Asymptotiken. Zumindest in der Ökonometrie, fast keineseriöses Papier behauptet heute, dass jeder der verschiedenen Schätzer, die üblicherweise in der frequentistischen Ökonometrie angewendet werden, alle wünschenswerten Eigenschaften einer "kleinen Stichprobe" besitzt, die wir von einem Schätzer erwarten würden. Sie alle stützen sich auf asymptotische Eigenschaften, um ihre Verwendung zu rechtfertigen. Die meisten Tests verwendet haben wünschenswerte Eigenschaften nur asymptotisch ... Aber wir sind nicht in „z-Land / t-Land“ mehr: all das anspruchsvolle (und formidable) Gerät der modernen frequentistischen Schätzung und Inferenz ist auch sehr idiosyncratic- was bedeutet, dass manchmal ein laaaaaaaaa ... ist aaaarge Probe in der Tat, um diese wertvollen asymptotischen Eigenschaften benötigt aufzutauchen und günstig die Schätzungen von den Schätzern abgeleitet beeinflussen, wie sie von verschiedenen Simulationen bewährt. Bedeutung Zehntausende von Beobachtungen -die obwohl sie für einige Bereiche der wirtschaftlichen Aktivität (wie Arbeit oder Finanzmärkte) zur Verfügung zu werden beginnen, gibt es andere (wie Makroökonomie), in dem sie nie (während meiner Lebensdauer mindestens) tun. Und das stört mich ziemlich, weil es die abgeleiteten Ergebnisse wirklich wiedergibtunsicher (nicht nur stochastisch).

Die Bayes'sche Ökonometrie für kleine Proben beruht nicht auf asymptotischen Ergebnissen. "Aber sie verlassen sich auf den subjektiven Prior !" ist die übliche Antwort ... auf , die, meint einfach, praktisch, Antwort ist folgende:. „ , wenn das Phänomen vor alt und studierte, kann der vor den vergangenen Daten nicht abschätzbar Wenn das Phänomen ist neu , von was sonst , wenn nicht Können wir mit subjektiven Argumenten die Diskussion darüber beginnen ?

— Alecos Papadopoulos
quelle

5

Dies ist eine lohnende Perspektive, aber beachten Sie, dass es häufig vorkommende Ansätze gibt, die sich nicht so sehr auf Asymptotik stützen, wie Monte-Carlo-Simulationen, Bootstrapping und Permutationstests.

— gung - Wiedereinsetzung von Monica

1

Und wenn man versucht, das Beste aus beiden Welten herauszuholen? Ein Versuch: Bartels, Christian (2017): Vorkenntnisse in frequentistischen Tests nutzen. figshare. doi.org/10.6084/m9.figshare.4819597.v3 Abgerufen: 17. 18. Mai 2017 (GMT)

— user36160

13

Dies ist eine späte Antwort, trotzdem hoffe ich, dass es etwas hinzufügt. Ich bin in der Telekommunikation ausgebildet, wo wir die meiste Zeit den Bayes'schen Ansatz verwenden.

Hier ist ein einfaches Beispiel: Angenommen, Sie können vier mögliche Signale von +5, +2,5, -2,5 und -5 Volt übertragen. Eines der Signale von diesem Satz wird gesendet, aber das Signal wird durch Gaußsches Rauschen verfälscht, wenn es das Empfangsende erreicht. In der Praxis wird das Signal ebenfalls gedämpft, aber wir werden dieses Problem der Einfachheit halber weglassen. Die Frage ist: Wenn Sie am Empfangsende sind, wie können Sie einen Detektor entwerfen, der Ihnen sagt, welches dieser Signale ursprünglich gesendet wurde?

Dieses Problem liegt offensichtlich im Bereich des Hypothesentests. Sie können jedoch keine p-Werte verwenden, da Signifikanztests möglicherweise alle vier möglichen Hypothesen verwerfen können und Sie wissen, dass eines dieser Signale tatsächlich übertragen wurde. Wir können die Neyman-Pearson-Methode verwenden, um einen Detektor im Prinzip zu entwerfen, aber diese Methode funktioniert am besten für binäre Hypothesen. Für mehrere Hypothesen wird es zu umständlich, wenn Sie sich mit einer Anzahl von Einschränkungen für falsche Alarmwahrscheinlichkeiten befassen müssen. Eine einfache Alternative ist das Testen der Bayes'schen Hypothese. Jedes dieser Signale hätte zur Übertragung ausgewählt werden können, so dass der Stand der Technik gleich wahrscheinlich ist. In solchen Fällen läuft das Verfahren darauf hinaus, das Signal mit maximaler Wahrscheinlichkeit auszuwählen. Diese Methode kann eine schöne geometrische Interpretation gegeben werden: Wählen Sie das Signal, das dem empfangenen Signal am nächsten kommt. Dies führt auch zu einer Aufteilung des Entscheidungsraums in eine Anzahl von Entscheidungsbereichen, so dass dann, wenn das empfangene Signal in einen bestimmten Bereich fallen sollte, entschieden wird, dass die mit diesem Entscheidungsbereich verbundene Hypothese wahr ist. Dadurch wird der Aufbau eines Detektors erleichtert.

— Jyaure
quelle

4

Vielen Dank, dass Sie Ihre Erfahrungen mit uns teilen. Willkommen auf unserer Webseite!

— Whuber

4

Sogenannte "Frequentist" -Statistiktests entsprechen unter bestimmten Voraussetzungen in der Regel dem im Prinzip komplexeren Bayes'schen Ansatz. Wenn diese Annahmen zutreffen, liefert jeder Ansatz das gleiche Ergebnis, sodass es sicher ist, den einfacher anzuwendenden Frequentist-Test zu verwenden. Der Bayes'sche Ansatz ist im Allgemeinen sicherer, da er die Annahmen explizit macht. Wenn Sie jedoch wissen, was Sie tun, ist der Frequentist-Test häufig genauso gut wie ein Bayes'scher Ansatz und in der Regel einfacher anzuwenden.

— Bogdanovist
quelle

1

Vielen Dank. Sie stellen fest, dass Frequentist-Tests "in der Regel einfacher anzuwenden" sind. Kennen Sie eine bestimmte Situation, in der dies nicht der Fall ist (wenn F nur "typisch" einfacher ist, muss es einige solche Fälle geben)? Derzeit können wir Fragen beiseite legen, deren Ansatz "sicherer" wäre, und uns nur auf den Teil konzentrieren, der einfacher anzuwenden ist .

— gung - Wiedereinsetzung von Monica

4

(Ich werde versuchen, was ich dachte, wäre die typischste Antwort.)

Angenommen, Sie haben eine Situation, in der es mehrere Variablen und eine Antwort gibt, und Sie wissen viel darüber, wie eine der Variablen mit der Antwort zusammenhängen sollte, aber nicht so viel über die anderen.

Wenn Sie in einer solchen Situation eine standardmäßige multiple Regressionsanalyse durchführen, wird dieses Vorwissen nicht berücksichtigt. Anschließend könnte eine Metaanalyse durchgeführt werden, die Aufschluss darüber geben könnte, ob das aktuelle Ergebnis mit den anderen Ergebnissen übereinstimmt und eine etwas genauere Schätzung zulässt (unter Einbeziehung der Vorkenntnisse zu diesem Zeitpunkt). Dieser Ansatz würde jedoch nicht zulassen, dass das, was über diese Variable bekannt war, die Schätzungen der anderen Variablen beeinflusst.

Eine andere Option ist, dass es möglich ist, Ihre eigene Funktion zu codieren und zu optimieren, die die Beziehung zu der fraglichen Variablen festlegt, und Parameterwerte für die anderen Variablen zu finden, die die Wahrscheinlichkeit der Daten bei dieser Einschränkung maximieren. Das Problem hierbei ist, dass die erste Option die Beta-Schätzung nicht ausreichend einschränkt, diese Methode sie jedoch überfordert.

Es kann möglich sein, einen Algorithmus zu beurteilen, der die Situation besser adressiert. Situationen wie diese scheinen ideale Kandidaten für die Bayes'sche Analyse zu sein. Jeder, der nicht dogmatisch gegen den Bayes'schen Ansatz ist, sollte bereit sein, ihn in solchen Fällen zu versuchen.

— gung - Setzen Sie Monica wieder ein
quelle

2

Ein Forschungsbereich, in dem die Bayes'schen Methoden äußerst einfach und die Frequentist-Methoden äußerst schwer zu befolgen sind, ist das Optimal Design .

$x^{(1)}$ $\beta$ $x^{(2)}$ $\beta$

$\beta$ $x^{(i)}$ $\hat \beta$ $\beta$ $\hat \beta$ $x^{(i)}$ $\beta$

$\beta$ $\beta$ $x$ $x$

Aus bayesianischer Sicht ist dieses Problem sehr einfach.

$\beta$
$x$
$x$
Wiederholen Sie die Schritte 2 und 3, bis die gewünschte Genauigkeit erreicht ist

$x$

— Cliff AB
quelle

2

Vielleicht ist einer der einfachsten und häufigsten Fälle, in denen der Bayes'sche Ansatz einfacher ist, die Quantifizierung der Unsicherheit von Parametern.

In dieser Antwort beziehe ich mich nicht auf die Interpretation von Konfidenzintervallen gegenüber glaubwürdigen Intervallen. Angenommen, ein Benutzer kann mit beiden Methoden zufrieden sein.

Im Bayes'schen Rahmen ist dies klar und deutlich. Dies ist die marginale Varianz des Seitenzahns für jeden einzelnen interessierenden Parameter. Angenommen, Sie können vom posterior abtasten, dann nehmen Sie einfach Ihre Proben und berechnen Sie Ihre Varianzen. Getan!

Im Fall von Frequentist ist dies normalerweise nur in einigen Fällen einfach und es ist ein echter Schmerz, wenn dies nicht der Fall ist. Wenn wir eine große Anzahl von Stichproben im Vergleich zu einer kleinen Anzahl von Parametern haben (und wer wirklich weiß, wie groß genug ist), können wir die MLE-Theorie verwenden, um CIs abzuleiten. Diese Kriterien gelten jedoch nicht immer, insbesondere für interessante Fälle (dh Modelle mit gemischten Effekten). Manchmal können wir Bootstrapping verwenden, aber manchmal nicht! In den Fällen, in denen es nicht möglich ist, Fehlerschätzungen abzuleiten, kann es sehr schwierig sein, Fehler abzuschätzen, und sie erfordern oft ein wenig Klugheit (dh die Greenwood-Formel zum Ableiten von SEs für Kaplan-Meier-Kurven). "Mit etwas Cleverness" ist nicht immer ein verlässliches Rezept!

— Cliff AB
quelle