Einfache Beispiele aus der Praxis für den Unterricht in Bayes'scher Statistik?


10

Ich würde gerne einige "Beispiele aus der Praxis" für den Unterricht in Bayes'scher Statistik finden. Die Bayes'sche Statistik ermöglicht es, Vorkenntnisse formal in eine Analyse einzubeziehen. Ich möchte den Studenten einige einfache Beispiele aus der Praxis von Forschern geben, die Vorkenntnisse in ihre Analyse einbeziehen, damit die Studenten die Motivation besser verstehen können, warum man Bayes'sche Statistiken überhaupt verwenden möchte.

Kennen Sie einfache Beispiele aus der Praxis wie die Schätzung eines Bevölkerungsmittels, eines Bevölkerungsanteils, einer Regression usw., bei denen Forscher Vorinformationen formell einbeziehen? Mir ist klar, dass Bayesianer auch "nicht informative" Prioritäten verwenden können, aber ich bin besonders an realen Beispielen interessiert, bei denen informative Prioritäten (dh echte vorherige Informationen) verwendet werden.


Ich denke, IQ ist ein ziemlich gutes Beispiel.
Hejseb

Keine reine Antwort, aber wenn Sie dreimal eine Münze werfen und der Kopf zweimal hochkommt, würde kein Schüler glauben, dass dieser Kopf doppelt so wahrscheinlich ist wie der Schwanz. Das ist ziemlich überzeugend, obwohl es sicherlich keine echte Forschung ist.
Bernhard

1
Sie können diese Antwort überprüfen, geschrieben von Ihnen wirklich: stats.stackexchange.com/a/134385/61496
Yair Daon

Kombinieren Sie vielleicht die Bayes-Regel, die in der häufig auftretenden Wahrscheinlichkeit / Schätzung angewendet werden kann, und die Bayes'sche Statistik, in der "Wahrscheinlichkeit" eine Zusammenfassung des Glaubens ist?
AdamO

Antworten:


6

Die Bayes'sche Suchtheorie ist eine interessante reale Anwendung der Bayes'schen Statistik, die viele Male angewendet wurde, um nach verlorenen Schiffen auf See zu suchen. Zu Beginn wird eine Karte in Quadrate unterteilt. Jedem Quadrat wird eine vorherige Wahrscheinlichkeit zugewiesen, das verlorene Schiff zu enthalten, basierend auf der letzten bekannten Position, dem Kurs, der fehlenden Zeit, den Strömen usw. Zusätzlich wird jedem Quadrat eine bedingte Wahrscheinlichkeit zugewiesen, das Schiff zu finden, wenn es sich tatsächlich auf diesem Quadrat befindet, basierend auf Dinge wie Wassertiefe. Diese Verteilungen werden kombiniert, um Kartenquadrate zu priorisieren, die die höchste Wahrscheinlichkeit haben, ein positives Ergebnis zu erzielen. Dies ist nicht unbedingt der wahrscheinlichste Ort für das Schiff, sondern der wahrscheinlichste Ort, an dem das Schiff tatsächlich gefunden wird.


1
Schön, das sind die Anwendungen, die in dem unterhaltsamen Buch Die Theorie, die nicht sterben würde beschrieben werden: Wie Bayes 'Regel den Rätselcode knackte, russische U-Boote jagte und aus zwei Jahrhunderten Kontroversen triumphierte . Auch Turing benutzte diese Art von Argumentation, um Rätsel zu lösen.
Jpmuc

Probabilistisch, aber ist es Bayesianisch?
Andrew

5

Ich denke, die Schätzung der Produktion oder der Populationsgröße anhand von Seriennummern ist interessant, wenn ein traditionelles Erklärungsbeispiel vorliegt. Hier versuchen Sie das Maximum einer diskreten Gleichverteilung. Abhängig von Ihrer Wahl des Vorgängers unterscheiden sich die maximale Wahrscheinlichkeit und die Bayes'schen Schätzungen auf ziemlich transparente Weise.

Das vielleicht berühmteste Beispiel ist die Schätzung der Produktionsrate deutscher Panzer während des Zweiten Weltkriegs anhand von Seriennummernbändern und Herstellercodes, die in der häufig vorkommenden Umgebung von (Ruggles and Brodie, 1947) erstellt wurden. Eine alternative Analyse aus Bayes-Sicht mit informativen Prioritäten wurde von (Downey, 2013) und mit unangemessenen, nicht informativen Prioritäten von (Höhle und Held, 2004) durchgeführt. Die Arbeit von (Höhle und Held, 2004) enthält auch viel mehr Verweise auf frühere Behandlungen in der Literatur, und es gibt auch mehr Diskussionen über dieses Problem auf dieser Seite.

Quellen:

Kapitel 3, Downey, Allen. Denken Sie an Bayes: Bayesianische Statistik in Python. "O'Reilly Media, Inc.", 2013.

Wikipedia

Ruggles, R.; Brodie, H. (1947). "Ein empirischer Ansatz zur wirtschaftlichen Intelligenz im Zweiten Weltkrieg". Zeitschrift der American Statistical Association. 42 (237): 72.

Höhle, Michael und Leonhard Held. Bayesianische Schätzung der Bevölkerungsgröße. Nr. 499. Diskussionspapier // Sonderforschungsbereich 386 der Ludwig-Maximilians-Universität München, 2006.


3

In Cressie & Wickle Statistics for Spatio-Temporal Data , Wiley, gibt es eine schöne Geschichte über die (bayesianische) Suche nach der USS Scorpion, einem U-Boot, das 1968 verloren gegangen ist. Wir erzählen diese Geschichte unseren Schülern und lassen sie eine ( vereinfachte) Suche mit einem Simulator .

Ähnliche Beispiele könnten um die Geschichte des verlorenen Fluges MH370 herum konstruiert werden; Vielleicht möchten Sie sich Davey et al., Bayesianische Methoden bei der Suche nach MH370 , Springer-Verlag , ansehen .


1

θ

y1,...,yny=(y1,...,yn)T

y1,...,yn|θN(θ,σ2)

Oder wie typischer von Bayesian geschrieben,

y1,...,yn|θN(θ,τ)

τ=1/σ2τ

yi

f(yi|θ,τ)=(τ2π)×exp(τ(yiθ)2/2)

θ^=y¯

θ

θN(a,1/b)

Die posteriore Verteilung, die wir aus diesem Normal-Normal-Datenmodell (nach viel Algebra) erhalten, ist eine weitere Normalverteilung.

θ|yN(bb+nτa+nτb+nτy¯,1b+nτ)

b+nτay¯bb+nτa+nτb+nτy¯

θ|yθθ

Sie können dies jetzt anhand eines beliebigen Lehrbuchbeispiels für normale Daten veranschaulichen. Ich werde den Datensatz airqualityin R verwenden. Betrachten Sie das Problem der Schätzung der durchschnittlichen Windgeschwindigkeit (MPH).

> ## New York Air Quality Measurements
> 
> help("airquality")
> 
> ## Estimating average wind speeds
> 
> wind = airquality$Wind
> hist(wind, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
>

Geben Sie hier die Bildbeschreibung ein

> n = length(wind)
> ybar = mean(wind)
> ybar
[1] 9.957516 ## "frequentist" estimate
> tau = 1/sd(wind)
> 
> 
> ## but based on some research, you felt avgerage wind speeds were closer to 12 mph
> ## but probably no greater than 15,
> ## then a potential prior would be N(12, 2)
> 
> a = 12
> b = 2
> 
> ## Your posterior would be N((1/))
> 
> postmean = 1/(1 + n*tau) * a + n*tau/(1 + n*tau) * ybar
> postsd = 1/(1 + n*tau)
> 
> set.seed(123)
> posterior_sample = rnorm(n = 10000, mean = postmean, sd = postsd)
> hist(posterior_sample, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
> abline(v = median(posterior_sample))
> abline(v = ybar, lty = 3)
> 

Geben Sie hier die Bildbeschreibung ein

> median(posterior_sample)
[1] 10.00324
> quantile(x = posterior_sample, probs = c(0.025, 0.975)) ## confidence intervals
2.5%     97.5% 
9.958984 10.047404 

In dieser Analyse kann der Forscher (Sie) sagen, dass bei geschätzten Daten + vorherigen Informationen Ihre Schätzung des durchschnittlichen Windes unter Verwendung des 50. Perzentils 10.00324 betragen sollte, mehr als nur unter Verwendung des Durchschnitts aus den Daten. Sie erhalten auch eine vollständige Verteilung, aus der Sie mit den Quantilen 2,5 und 97,5 ein zu 95% glaubwürdiges Intervall extrahieren können.

Im Folgenden füge ich zwei Referenzen hinzu. Ich empfehle dringend, Casellas Kurzarbeit zu lesen. Es zielt speziell auf empirische Bayes-Methoden ab, erklärt jedoch die allgemeine Bayes'sche Methodik für normale Modelle.

Verweise:

  1. Casella, G. (1985). Eine Einführung in die empirische Bayes-Datenanalyse. The American Statistician, 39 (2), 83-87.

  2. Gelman, A. (2004). Bayesianische Datenanalyse (2. Aufl., Texte in der Statistikwissenschaft). Boca Raton, Fla.: Chapman & Hall / CRC.


1

Ein Forschungsbereich, in dem ich die Bayes'schen Methoden für absolut notwendig halte, ist das optimale Design.

xβx

xβββx

  • n=0β^

  • β^

  • β=1β^=5xβ=5x

  • β

xx

xβ

βx

x


1

Ich habe in letzter Zeit über diese Frage nachgedacht, und ich glaube, ich habe ein Beispiel, bei dem Bayesian sinnvoll ist, wobei eine vorherige Wahrscheinlichkeit verwendet wird: das Wahrscheinlichkeitsverhältnis eines klinischen Tests.

Das Beispiel könnte dieses sein: die Gültigkeit des Urin-Dipslides unter täglichen Übungsbedingungen (Family Practice 2003; 20: 410-2). Die Idee ist zu sehen, was ein positives Ergebnis des Urinabfalls für die Diagnose einer Urininfektion bedeutet. Das Wahrscheinlichkeitsverhältnis des positiven Ergebnisses ist:

LR(+)=test+|H+test+|H=Sensibility1specificity
H+H

OR(+|test+)=LR(+)×OR(+)
OROR(+|test+)OR(+)

LR(+)=12.2LR()=0.29

p+=2/3p+|test+=0.96p+|test=0.37

Hier ist der Test gut, um die Infektion zu erkennen, aber nicht so gut, um die Infektion zu verwerfen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.