Als «prior» getaggte Fragen

In der Bayes'schen Statistik formalisiert eine vorherige Verteilung Informationen oder Wissen (oft subjektiv), die verfügbar sind, bevor eine Stichprobe gesehen wird, in Form einer Wahrscheinlichkeitsverteilung. Eine Verteilung mit großer Streuung wird verwendet, wenn wenig über die Parameter bekannt ist, während eine engere vorherige Verteilung einen größeren Informationsgrad darstellt.

2
Warum produziert Laplace vor der Produktion spärliche Lösungen?
Ich habe die Literatur zur Regularisierung durchgesehen und oft Abschnitte gesehen, die die L2-Regulierung mit der Gaußschen Vorgängerversion und L1 mit Laplace auf Null zentriert verbinden. Ich weiß, wie diese Priors aussehen, aber ich verstehe nicht, wie sie sich beispielsweise in linearen Modellen als Gewichte übersetzen lassen. In L1 erwarten …

3
Wie kann ein unsachgemäßer Vorversuch zu einer korrekten posterioren Verteilung führen?
Wir wissen, dass im Falle einer ordnungsgemäßen vorherigen Verteilung, P(θ∣X)=P(X∣θ)P(θ)P(X)P(θ∣X)=P(X∣θ)P(θ)P(X)P(\theta \mid X) = \dfrac{P(X \mid \theta)P(\theta)}{P(X)} ∝P(X∣θ)P(θ)∝P(X∣θ)P(θ) \propto P(X \mid \theta)P(\theta) . Die übliche Rechtfertigung für diesen Schritt ist, dass die Randverteilung von XXX , P(X)P(X)P(X) Bezug auf ; konstant θθ\thetaist und daher ignoriert werden kann, wenn die hintere Verteilung …

6
Posterior sehr unterschiedlich zu Prior und Likelihood
Wenn der Prior und die Wahrscheinlichkeit sehr unterschiedlich sind, tritt manchmal eine Situation auf, in der der Posterior keinem von beiden ähnlich ist. Siehe zum Beispiel dieses Bild, das Normalverteilungen verwendet. Obwohl dies mathematisch korrekt ist, scheint es nicht mit meiner Intuition übereinzustimmen - wenn die Daten nicht mit meinen …


2
Natürliche Interpretation für LDA-Hyperparameter
Kann jemand erklären, was die natürliche Interpretation für LDA-Hyperparameter ist? ALPHAund BETAsind Parameter von Dirichlet-Verteilungen für (pro Dokument) Themen- bzw. (pro Thema) Wortverteilungen. Kann jemand erklären, was es bedeutet, größere Werte dieser Hyperparameter gegenüber kleineren Werten zu wählen? Bedeutet das, dass vorher in Bezug auf die thematische Sparsamkeit in Dokumenten …

2
Warum wird ein vor einer Varianz als schwach angesehen?
Hintergrund Eine der am häufigsten verwendeten Schwachstellen vor der Varianz ist das inverse Gamma mit den Parametern (Gelman 2006) .α = 0,001 , β= 0,001α=0.001,β=0.001\alpha =0.001, \beta=0.001 Diese Verteilung hat jedoch einen 90% von ungefähr .[ 3 × 1019, ∞ ][3×1019,∞][3\times10^{19},\infty] library(pscl) sapply(c(0.05, 0.95), function(x) qigamma(x, 0.001, 0.001)) [1] 3.362941e+19 …


2
Was ist das Problem mit empirischen Prioren?
In der Literatur stolpere ich manchmal über die Bemerkung, dass die Auswahl von Prioren, die von den Daten selbst abhängen (zum Beispiel Zellners G-Prior), aus theoretischer Sicht kritisiert werden kann. Wo genau liegt das Problem, wenn der Prior nicht unabhängig von den Daten gewählt wird?

4
Wie lässt sich das Bayes'sche Gerüst besser interpretieren, wenn wir normalerweise uninformative oder subjektive Prioritäten verwenden?
Es wird oft argumentiert, dass das Bayes'sche Gerüst einen großen Vorteil bei der Interpretation hat (gegenüber dem Frequentisten), weil es die Wahrscheinlichkeit eines Parameters berechnet, wenn die Daten gegeben sind - anstelle von wie in frequentistischer Rahmen. So weit, ist es gut.p ( x | θ )p ( θ | …

1
Gibt es eine Bayes'sche Interpretation der linearen Regression mit simultaner L1- und L2-Regularisierung (auch bekannt als elastisches Netz)?
Es ist allgemein bekannt, dass eine lineare Regression mit einer 1 Strafe gleichbedeutend ist mit dem Finden der MAP-Schätzung, wenn ein Gaußscher Wert vor den Koeffizienten angegeben wird. In ähnlicher Weise ist die Verwendung einer Strafe gleichbedeutend mit der Verwendung einer Laplace-Verteilung wie zuvor.l 1l2l2l^2l1l1l^1 Es ist nicht ungewöhnlich, eine …

2
Welche Beziehung besteht zwischen Jeffreys Priors und einer Varianz stabilisierenden Transformation?
Ich habe über die Jeffreys Prior auf Wikipedia gelesen: Jeffreys Prior und gesehen, dass nach jedem Beispiel beschrieben wird, wie eine Varianz-stabilisierende Transformation die Jeffreys Prior in einen einheitlichen Prior verwandelt. Für den Bernoulli-Fall heißt es beispielsweise, dass das Bernoulli-Versuchsmodell für eine Münze mit Wahrscheinlichkeit ergibt, dass Jeffreys Prior für …


2
Frequentismus und Priors
Robby McKilliam sagt in einem Kommentar zu diesem Beitrag: Es sollte darauf hingewiesen werden, dass es aus Sicht der Frequentisten keinen Grund gibt, das Vorwissen nicht in das Modell zu integrieren. In diesem Sinne ist die frequentistische Ansicht einfacher, Sie haben nur ein Modell und einige Daten. Es ist nicht …


2
Welche früheren Verteilungen könnten / sollten für die Varianz in einem hierarchischen Bayesisan-Modell verwendet werden, wenn die mittlere Varianz von Interesse ist?
In seiner viel zitierten Arbeit Prior-Verteilungen für Varianzparameter in hierarchischen Modellen (916 Zitate in Google Scholar) Gelman schlägt vor, dass gute, nicht informative Vorverteilungen für die Varianz in einem hierarchischen Bayes'schen Modell die Gleichverteilung und die Halb-t-Verteilung sind. Wenn ich die Dinge richtig verstehe, funktioniert dies gut, wenn der Standortparameter …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.