Welche nicht-bayesianischen Methoden gibt es für prädiktive Schlussfolgerungen?


22

In der Bayes'schen Inferenz wird eine prädiktive Verteilung für zukünftige Daten abgeleitet, indem unbekannte Parameter herausintegriert werden. Die Integration über die posteriore Verteilung dieser Parameter ergibt eine posteriore Vorhersageverteilung - eine Verteilung für zukünftige Daten, die von den bereits beobachteten abhängig ist. Welche nicht-bayesianischen Methoden für die prädiktive Inferenz berücksichtigen Unsicherheiten bei Parameterschätzungen (dh, sie fügen nicht nur Maximum-Likelihood-Schätzungen oder was auch immer in eine Dichtefunktion zurück)?

Jeder weiß, wie man Vorhersageintervalle nach einer linearen Regression berechnet, aber was sind die Prinzipien hinter der Berechnung und wie können sie in anderen Situationen angewendet werden (z. B. Berechnung eines genauen Vorhersageintervalls für eine neue Exponentialvariable nach Schätzung des Ratenparameters aus Daten)?


6
Ich denke, das ist eine großartige Frage, und ich möchte zumindest eine teilweise Antwort geben, aber ich werde wahrscheinlich für eine Weile keine Zeit bekommen, um dem gerecht zu werden ... also werde ich vorerst eine Prämie dafür zahlen .
Glen_b

3
@ DavidC.Norris Ich verstehe nicht, warum man darauf bestehen muss, dass es darüber hinaus notwendigerweise andere Quellen für Parameterunsicherheit gibt (woher prädiktive Inferenz sowohl dies als auch die zufällige Variabilität im Prozess selbst berücksichtigen müsste). Dies ist selbst in relativ einfachen Beispielen nicht trivial. Versuchen Sie beispielsweise, Vorhersageintervalle für eine Summe von Vorhersagen aus einer Poisson- oder einer negativen binomialen Regression zu erstellen. Man muss auch kein Bayesianer sein, um anzunehmen, dass es Unterschiede in den Parametern zwischen den Kategorien gibt (z. B. wenn Leute gemischte Modelle verwenden).
Glen_b

2
@ DavidC.Norris: Ich habe nach nicht-Bayesianischen Methoden gefragt, weil die Berechnung der posterioren Vorhersageverteilungen in jeder Einführung in die Bayesianische Statistik behandelt wird, wohingegen allgemeine häufig verwendete Methoden zur Berechnung der Vorhersageintervalle nicht allgemein bekannt sind.
Scortchi

2
@EngrStudent: Beim Bootstrapping werden die Originaldaten erneut abgetastet. Daher fallen sie in dieselbe Kategorie wie andere häufig verwendete Methoden, bei denen nur Stichprobenvariationen als Unsicherheitsquelle betrachtet werden. Das Konzept der Unsicherheit selbst wird nicht erweitert.
David C. Norris

3
@ DavidC.Norris: Es geht mir hier eher um Stichprobenvariationen als um Unsicherheitsquellen, die Vorhersagen zukünftiger Beobachtungen beeinflussen, als um Rückschlüsse auf Parameter, und nicht um nicht-bayesianische Methoden, um andere Arten von Unsicherheiten zu berücksichtigen.
Scortchi - Wiedereinsetzung von Monica

Antworten:


20

Die nicht-bayesianische prädiktive Inferenz (abgesehen vom Fall der Spiegelreflexkamera) ist ein relativ neues Gebiet. Unter der Überschrift "Nicht-Bayesian" können wir die Ansätze in "klassische" Frequentisten und "Wahrscheinlichkeitsansätze" unterteilen.

Klassische häufige Vorhersage

αβ

Jetzt hatte ich im Allgemeinen Probleme damit, wie klassische PIs in den meisten Statistikkursen vorgestellt und unterrichtet werden, da die überwältigende Tendenz darin besteht, diese als Bayes'sche posteriore Vorhersageintervalle zu interpretieren, was definitiv nicht der Fall ist. Grundsätzlich geht es um unterschiedliche Wahrscheinlichkeiten! Bayesianer erheben keinen Anspruch auf die wiederholte Probenahme ihrer Mengen (sonst wären sie Frequentisten). Zweitens erreicht ein Bayes-PI tatsächlich etwas, das einem klassischen Toleranzintervall ähnlicher ist als einem klassischen Vorhersageintervall.

Als Referenz: Toleranzintervalle müssen mit zwei Wahrscheinlichkeiten angegeben werden : der Zuverlässigkeit und der Abdeckung. Das Vertrauen sagt uns, wie oft es in wiederholten Proben korrekt ist. Die Abdeckung sagt uns die Mindest Wahrscheinlichkeitsmaß des Intervalls unter der wahren Verteilung (in Bezug auf das PI gegenüber , das das gibt erwarteten Wahrscheinlichkeitsmaß ... wieder unter wiederholter Probenahme). Dies ist im Grunde das, was der Bayesianische PI auch versucht, jedoch ohne Behauptungen über wiederholte Probenahmen.

Die Grundlogik der einfachen linearen Regression von Stats 101 besteht also darin, die Eigenschaften der wiederholten Abtastung des PI unter der Annahme der Normalität abzuleiten. Es ist der häufigste + Gaußsche Ansatz, der normalerweise als "klassisch" eingestuft wird und in Intro-Statistik-Kursen unterrichtet wird. Dies basiert auf der Einfachheit der resultierenden Berechnungen (siehe Wikipedia für einen schönen Überblick).

Nicht-Gaußsche Wahrscheinlichkeitsverteilungen sind im Allgemeinen problematisch, weil es ihnen an entscheidenden Größen mangeln kann, die sauber invertiert werden können, um ein Intervall zu erhalten. Daher gibt es für diese Verteilungen keine "exakte" Methode, da die Eigenschaften des Intervalls häufig von den tatsächlichen zugrunde liegenden Parametern abhängen.

In Anerkennung dieser Unfähigkeit entstand eine weitere Klasse von Vorhersagen (und von Schlussfolgerungen und Schätzungen) mit dem Wahrscheinlichkeitsansatz.

Wahrscheinlichkeitsbasierte Inferenz

Wahrscheinlichkeitsbasierte Ansätze lassen sich wie viele moderne statistische Konzepte auf Ronald Fisher zurückführen. Die Grundidee dieser Schule ist, dass unsere statistischen Schlussfolgerungen mit Ausnahme von Sonderfällen logisch schwächer sind als bei Schlussfolgerungen aus einer Normalverteilung (deren Parameterschätzungen orthogonal sind ), in der wir genaue Wahrscheinlichkeitsaussagen treffen können. Aus dieser Sicht der Folgerung sollte man Aussagen über die Wahrscheinlichkeit wirklich vermeiden, außer im genauen Fall, ansonsten sollte man Aussagen über die Wahrscheinlichkeit machen und anerkennen, dass man die genaue Fehlerwahrscheinlichkeit nicht kennt (im häufigeren Sinne).

Daher können wir die Wahrscheinlichkeit als mit der Bayes'schen Wahrscheinlichkeit verwandt ansehen, jedoch ohne die Integrierbarkeitsanforderungen oder die mögliche Verwechslung mit der frequentistischen Wahrscheinlichkeit. Ihre Interpretation ist völlig subjektiv ... obwohl für die Inferenz einzelner Parameter oft ein Wahrscheinlichkeitsverhältnis von 0,15 empfohlen wird.

Allerdings sieht man nicht oft Artikel, die explizit "Wahrscheinlichkeitsintervalle" angeben. Warum? Es scheint, dass dies größtenteils eine Frage der Soziologie ist, da wir uns alle an wahrscheinlichkeitsbasierte Vertrauensaussagen gewöhnt haben. Stattdessen sehen Sie oft einen Autor, der sich auf ein "ungefähres" oder "asymptotisches" Konfidenzintervall von solchem ​​und solchem ​​bezieht. Diese Intervalle leiten sich größtenteils aus Likelihood-Methoden ab, bei denen wir uns auf die asymptotische Chi-Quadrat-Verteilung des Likelihood-Verhältnisses stützen, ähnlich wie wir uns auf die asymptotische Normalität des Stichprobenmittelwerts stützen.

Mit dieser "Korrektur" können wir nun "ungefähre" 95% -Vertrauensbereiche mit fast genauso logischer Konsistenz wie die Bayesianer konstruieren.

Von CI zu PI im Likelihood Framework

Der Erfolg und die Leichtigkeit des oben genannten Likelihood-Ansatzes führten zu Überlegungen, wie er auf Vorhersagen ausgedehnt werden kann. Ein sehr schöner Übersichtsartikel dazu ist hier zu finden (ich werde seine hervorragende Berichterstattung nicht wiedergeben). Es geht zurück auf David Hinkley in den späten 1970er Jahren (siehe JSTOR ), der den Begriff geprägt hat. Er wandte es auf das mehrjährige " Pearson's Binomial Prediction Problem " an. Ich werde die grundlegende Logik zusammenfassen.

yyy

Die Grundregeln zum Entfernen von "Stör" -Parametern, um eine prädiktive Wahrscheinlichkeit zu erhalten, lauten wie folgt:

  1. μ,σ
  2. Wenn ein Parameter zufällig ist (z. B. andere nicht beobachtete Daten oder "zufällige Effekte"), integrieren Sie sie heraus (genau wie beim Bayes'schen Ansatz).

Die Unterscheidung zwischen einem festen und einem zufälligen Parameter ist für die Wahrscheinlichkeitsinferenz eindeutig, hat jedoch Verbindungen zu Modellen mit gemischten Effekten, bei denen das Bayes'sche, das Frequent'sche und das Wahrscheinlichkeitsgerüst anscheinend kollidieren.

Hoffentlich hat dies Ihre Frage nach dem weiten Bereich der "nicht-Bayes'schen" Vorhersage (und der Schlußfolgerung in dieser Angelegenheit) beantwortet. Da sich Hyperlinks ändern können, werde ich auch einen Plug für das Buch "In aller Wahrscheinlichkeit: Statistische Modellierung und Inferenz unter Verwendung von Likelihood" erstellen, in dem das moderne Likelihood-Framework eingehend erörtert wird Inferenz und Vorhersage.


Verweise

  1. Vorhersageintervalle: Nicht parametrische Methoden . Wikipedia. Abgerufen am 13.09.2015.
  2. Bjornstad, Jan F. Voraussagbare Wahrscheinlichkeit: Ein Rückblick. Statist. Sci. 5 (1990), no. 2, 242 & ndash; 254. doi: 10.1214 / ss / 1177012175. http://projecteuclid.org/euclid.ss/1177012175 .
  3. David Hinkley. Voraussagbare Wahrscheinlichkeit . Die Annalen der Statistik Vol. 7, No. 4 (Jul. 1979), S. 718-728 Herausgeber: Institute of Mathematical Statistics Stable URL: http://www.jstor.org/stable/2958920
  4. Yudi Pawitan. In All Likelihood: Statistische Modellierung und Inferenz unter Verwendung von Likelihood. Oxford University Press; 1 Ausgabe (30. August 2001). ISBN-10: 0198507658, ISBN-13: 978-0198507659. Insbesondere die Kapitel 5.5-5.9, 10 und 16.

5

Ich werde meine Antwort speziell auf die Frage richten: "Welche nicht-bayesianischen Methoden für die prädiktive Inferenz gibt es, die die Unsicherheit bei Parameterschätzungen berücksichtigen?" Ich werde meine Antwort so organisieren, dass die Bedeutung von Unsicherheit erweitert wird .

Wir hoffen, dass statistische Analysen Unterstützung für verschiedene Arten von Ansprüchen bieten, einschließlich Vorhersagen . Wir sind unsicher über unsere Behauptungen, und diese Unsicherheit ergibt sich aus vielen Quellen. Frequentistische Statistiken sind charakteristischerweise so organisiert, dass nur der Teil unserer Unsicherheit berücksichtigt wird, der sich speziell aus der Stichprobe ergibt . Die Stichprobenerhebung dürfte die Hauptursache für Unsicherheiten in den landwirtschaftlichen Feldversuchen gewesen sein, die historisch gesehen einen großen Anreiz für die Entwicklung der frequentistischen Statistiken darstellten. In vielen der wichtigsten aktuellen Anwendungen ist dies jedoch nicht der Fall. Wir sorgen uns jetzt um alle möglichen anderen Unsicherheiten wie Modellfehlspezifikationen und verschiedene Arten von Verzerrungen, von denen es anscheinend Hunderte (!) Von Typen gibt [1].

Sander Greenland hat ein wunderbares Diskussionspapier [2] verfasst, in dem dargelegt wird, wie wichtig es sein kann, diese anderen Unsicherheitsquellen zu berücksichtigen, und in dem eine Multiple-Bias-Analyse als Mittel zur Erreichung dieses Ziels vorgeschrieben ist. Er entwickelt die Theorie vollständig in Bayes'schen Begriffen, was natürlich ist. Möchte man eine formelle, kohärente Behandlung der Unsicherheit über Modellparameter vornehmen, wird man natürlich dazu gebracht, (subjektive) Wahrscheinlichkeitsverteilungen über Parameter zu setzen; Zu diesem Zeitpunkt sind Sie entweder dem Bayesianischen Teufel ausgeliefert oder haben das Bayesianische Himmelreich betreten (abhängig von Ihrer Religion).

Auf Ihre Frage, @Scortchi, ob dies mit "nicht-Bayesianischen Methoden" möglich ist, wird in [3] eine nicht-Bayesianische Problemumgehung gezeigt. Aber für alle, die genug über den Bayesianismus wissen, um Ihre Frage zu schreiben, wird die Behandlung dort sozusagen wie ein Versuch aussehen, Bayesianische Berechnungen sozusagen 'auf den Kopf zu stellen'. Wie die Autoren bestätigen (siehe S. 4), sehen die Methoden umso genauer aus, je weiter Sie sich gegen Ende des Buches den fortgeschritteneren Methoden nähern, je genauer die Integration ist, die Sie in Ihrer Frage beschreiben. Sie schlagen vor, dass, wo sie vom Bayesianismus abweichen, sie letztendlich nur keine expliziten Prioritäten für ihre Parameter setzen, bevor sie diese abschätzen.

θ(α)αθ

  1. Chavalarias, David und John PA Ioannidis. "Science-Mapping-Analyse charakterisiert 235 Verzerrungen in der biomedizinischen Forschung." Journal of Clinical Epidemiology 63, No. 11 (November 2010): 1205–15. doi: 10.1016 / j.jclinepi.2009.12.011.

  2. Grönland, Sander. "Multiple-Bias-Modellierung zur Analyse von Beobachtungsdaten (mit Diskussion)." Journal der Royal Statistical Society: Reihe A (Statistik in der Gesellschaft) 168, Nr. 2 (März 2005): 267–306. doi: 10.1111 / j.1467-985X.2004.00349.x.

  3. Lash, Timothy L., Matthew P. Fox und Aliza K. Fink. Anwendung der quantitativen Verzerrungsanalyse auf epidemiologische Daten. Statistik für Biologie und Gesundheit. New York, NY: Springer New York, 2009. http://link.springer.com/10.1007/978-0-387-87959-8 .


2
Vielen Dank! Das hört sich sehr interessant an, aber ich denke, es wäre nützlich, wenn Sie einen kurzen Überblick darüber geben könnten, wie die multiple / quantitative Bias-Analyse bei der prädiktiven Inferenz verwendet wird.
Scortchi - Wiedereinsetzung von Monica

Ich habe einen Absatz hinzugefügt, um die Verbindung zur Vorhersage explizit zu machen . Vielen Dank für Ihre Anfrage zur Klärung, @Scortchi.
David C. Norris
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.