Als «hierarchical-bayesian» getaggte Fragen

Hierarchische Bayes'sche Modelle spezifizieren Prioritäten für Parameter und Hyperprioren für die Parameter der vorherigen Verteilungen


2
Was ist der Unterschied zwischen „Deep Learning“ und mehrstufiger / hierarchischer Modellierung?
Ist "Deep Learning" nur ein weiterer Begriff für mehrstufige / hierarchische Modellierung? Ich kenne die letztere viel besser als die erstere, aber soweit ich das beurteilen kann, besteht der Hauptunterschied nicht in ihrer Definition, sondern darin, wie sie in ihrem Anwendungsbereich verwendet und bewertet werden. Es sieht so aus, als …

5
Umgang mit hierarchischen / verschachtelten Daten beim maschinellen Lernen
Ich werde mein Problem mit einem Beispiel erklären. Angenommen, Sie möchten das Einkommen einer Person anhand einiger Attribute vorhersagen: {Alter, Geschlecht, Land, Region, Stadt}. Sie haben einen Trainingsdatensatz wie diesen train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
Was ist das Problem mit empirischen Prioren?
In der Literatur stolpere ich manchmal über die Bemerkung, dass die Auswahl von Prioren, die von den Daten selbst abhängen (zum Beispiel Zellners G-Prior), aus theoretischer Sicht kritisiert werden kann. Wo genau liegt das Problem, wenn der Prior nicht unabhängig von den Daten gewählt wird?

1
Warum ist in Gelmans Schulbeispiel 8 der Standardfehler der angenommenen Einzelschätzung bekannt?
Kontext: In Gelmans 8-schuligem Beispiel (Bayesian Data Analysis, 3. Ausgabe, Kapitel 5.5) gibt es acht parallele Experimente in acht Schulen, in denen die Wirkung von Coaching getestet wird. Jedes Experiment liefert einen Schätzwert für die Wirksamkeit des Coachings und den damit verbundenen Standardfehler. Die Autoren erstellen dann ein hierarchisches Modell …


2
Welche früheren Verteilungen könnten / sollten für die Varianz in einem hierarchischen Bayesisan-Modell verwendet werden, wenn die mittlere Varianz von Interesse ist?
In seiner viel zitierten Arbeit Prior-Verteilungen für Varianzparameter in hierarchischen Modellen (916 Zitate in Google Scholar) Gelman schlägt vor, dass gute, nicht informative Vorverteilungen für die Varianz in einem hierarchischen Bayes'schen Modell die Gleichverteilung und die Halb-t-Verteilung sind. Wenn ich die Dinge richtig verstehe, funktioniert dies gut, wenn der Standortparameter …

1
Warum bedeutet das Hinzufügen eines Verzögerungseffekts eine Abweichung in einem Bayes'schen hierarchischen Modell?
Hintergrund: Ich arbeite gerade daran, verschiedene Bayesianische Hierarchiemodelle zu vergleichen. Die Daten sind numerische Maße für das Wohlbefinden des Teilnehmers i und die Zeit j . Ich habe ungefähr 1000 Teilnehmer und 5 bis 10 Beobachtungen pro Teilnehmer.yich jyichjy_{ij}ichichijjj Wie bei den meisten longitudinalen Datensätzen erwarte ich eine Form der …

1
Warum beschleunigt die redundante mittlere Parametrisierung Gibbs MCMC?
In dem Buch von Gelman & Hill (2007) (Datenanalyse unter Verwendung von Regression und mehrstufigen / hierarchischen Modellen) behaupten die Autoren, dass die Einbeziehung redundanter mittlerer Parameter zur Beschleunigung der MCMC beitragen kann. Das gegebene Beispiel ist ein nicht verschachteltes Modell des "Flugsimulators" (Gl. 13.9): yiγjδk∼N(μ+γj[i]+δk[i],σ2y)∼N(0,σ2γ)∼N(0,σ2δ)yi∼N(μ+γj[i]+δk[i],σy2)γj∼N(0,σγ2)δk∼N(0,σδ2) \begin{align} y_i &\sim N(\mu …

2
Was sind die Parameter eines Wishart-Wishart posterior?
Wenn die Präzision Matrix infering ΛΛ\boldsymbol{\Lambda} einer Normalverteilung verwendet , zu erzeugen D-dimensionalen Vektoren wir normalerweise einen Wishart vor da die Wishart-Verteilung das Konjugat vor der Präzision einer Multivariate ist Normalverteilung mit bekanntem Mittelwert und unbekannter Varianz: wobei \ upsilon ist die Freiheitsgrade und \ boldsymbol {\ Lambda_0} dieNNNx1,..,xNx1,..,xN\mathbf{x_1},..,\mathbf{x_N} xi∼N(μ,Λ−1)xi∼N(μ,Λ−1)\begin{align} …


2
Warum liefert die eingeschränkte maximale Wahrscheinlichkeit eine bessere (unvoreingenommene) Schätzung der Varianz?
Ich lese Doug Bates ' Theoriepapier über Rs lme4-Paket, um das Wesentliche gemischter Modelle besser zu verstehen, und bin auf ein faszinierendes Ergebnis gestoßen, das ich besser verstehen möchte, wenn es darum geht, die Varianz mithilfe der eingeschränkten maximalen Wahrscheinlichkeit (REML) zu schätzen . In Abschnitt 3.3 zum REML-Kriterium stellt …

1
Fisher's Exact Test und hypergeometrische Verteilung
Ich wollte den genauen Test des Fischers besser verstehen, deshalb habe ich das folgende Spielzeugbeispiel entwickelt, bei dem f und m männlich und weiblich und n und y dem "Sodakonsum" wie folgt entsprechen: > soda_gender f m n 0 5 y 5 0 Dies ist natürlich eine drastische Vereinfachung, aber …

1
Hyperprior-Dichte für hierarchisches Gamma-Poisson-Modell
In einem hierarchischen Datenmodell yyy in dem y∼Poisson(λ)y∼Poisson(λ)y \sim \textrm{Poisson}(\lambda) λ∼Gamma(α,β)λ∼Gamma(α,β)\lambda \sim \textrm{Gamma}(\alpha, \beta) , scheint es in der Praxis typisch zu sein, Werte ( α,β)α,β)\alpha, \beta) so zu dass der Mittelwert und die Varianz von Die Gammaverteilung stimmt ungefähr mit dem Mittelwert und der Varianz der Daten überein yyy(z. …

1
Warum ist LKJcorr ein guter Prior für die Korrelationsmatrix?
Ich lese das Kapitel 13 "Adventures in Covariance" in dem ( hervorragenden ) Buch Statistical Rethinking von Richard McElreath, in dem er das folgende hierarchische Modell vorstellt: ( Rist eine Korrelationsmatrix) Der Autor erklärt, dass dies LKJcorrein schwach informativer Prior ist, der als Regularisierungsprior für die Korrelationsmatrix fungiert. Aber warum …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.