Als «fisher-information» getaggte Fragen

Die Fisher-Informationen messen die Krümmung der Log-Wahrscheinlichkeit und können zur Bewertung der Effizienz von Schätzern verwendet werden.


2
Grundlegende Frage zu Fisher Information Matrix und Beziehung zu hessischen und Standardfehlern
Ok, das ist eine ziemlich grundlegende Frage, aber ich bin ein bisschen verwirrt. In meiner Diplomarbeit schreibe ich: Die Standardfehler können durch Berechnung der Umkehrung der Quadratwurzel der diagonalen Elemente der (beobachteten) Fisher-Informationsmatrix ermittelt werden: sμ^,σ^2=1I(μ^,σ^2)−−−−−−√sμ^,σ^2=1I(μ^,σ^2)\begin{align*} s_{\hat{\mu},\hat{\sigma}^2}=\frac{1}{\sqrt{\mathbf{I}(\hat{\mu},\hat{\sigma}^2)}} \end{align*} Da der Optimierungsbefehl in R minimiert die (beobachtete) Fisher-Informationsmatrix durch Berechnung der …

3
Welche Informationen sind Fisher-Informationen?
Angenommen, wir haben eine Zufallsvariable . Wenn der wahre Parameter wäre, sollte die Wahrscheinlichkeitsfunktion maximiert und die Ableitung gleich Null sein. Dies ist das Grundprinzip des Maximum-Likelihood-Schätzers.X∼f(x|θ)X∼f(x|θ)X \sim f(x|\theta)θ0θ0\theta_0 Wie ich es verstehe, ist Fisher Information definiert als I(θ)=E[(∂∂θf(X|θ))2]I(θ)=E[(∂∂θf(X|θ))2]I(\theta) = \Bbb E \Bigg[\left(\frac{\partial}{\partial \theta}f(X|\theta)\right)^2\Bigg ] Wenn also der wahre Parameter …

3
Zusammenhang zwischen Fisher-Metrik und der relativen Entropie
Kann jemand beweist die folgende Verbindung zwischen Fisher Informationen Metrik und der relativen Entropie (oder KL Divergenz) in eine rein mathematischen rigorosen Art und Weise? D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(∥da∥3)D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(‖da‖3)D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3) wobei , g_ {i, j} = \ int \ …


2
Warum ist die Fisher Information Matrix positiv semidefinit?
Lassen Sie . Die Fisher Information Matrix ist definiert als:θ ∈ Rnθ∈Rn\theta \in R^{n} ich( θ )ich , j= - E[ ∂2Log( f( X| θ))∂θich∂θj∣∣∣θ ]ich(θ)ich,j=-E[∂2Log⁡(f(X|θ))∂θich∂θj|θ]I(\theta)_{i,j} = -E\left[\frac{\partial^{2} \log(f(X|\theta))}{\partial \theta_{i} \partial \theta_{j}}\bigg|\theta\right] Wie kann ich nachweisen, dass die Fisher Information Matrix positiv semidefinit ist?


2
Warum genau werden die beobachteten Fisher-Informationen verwendet?
In der Standard - Maximalwahrscheinlichkeitseinstellung (iid Stichprobe aus einer Verteilung mit der Dichte f y ( y | θ 0Y1,…,YnY1,…,YnY_{1}, \ldots, Y_{n}fy(y|θ0fy(y|θ0f_{y}(y|\theta_{0} )) und im Fall eines korrekt spezifizierten Modells wird die Fisher-Information durch gegeben I(θ)=−Eθ0[∂2θ2lnfy(θ)]I(θ)=−Eθ0[∂2θ2ln⁡fy(θ)]I(\theta) = -\mathbb{E}_{\theta_{0}}\left[\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) \right] wobei die Erwartung in Bezug auf die wahre Dichte genommen …

2
Beobachtete Informationsmatrix ist ein konsistenter Schätzer der erwarteten Informationsmatrix?
Ich versuche zu beweisen, dass die beobachtete Informationsmatrix, die beim schwach konsistenten Maximum Likelihood Estimator (MLE) ausgewertet wird, ein schwach konsistenter Schätzer der erwarteten Informationsmatrix ist. Dies ist ein viel zitiertes Ergebnis, aber niemand gibt einen Hinweis oder einen Beweis (ich denke, die ersten 20 Seiten der Google-Ergebnisse und meine …

1
Was ist die Intuition hinter austauschbaren Proben unter der Nullhypothese?
Permutationstests (auch Randomisierungstest, Re-Randomisierungstest oder exakter Test genannt) sind sehr nützlich und nützlich, wenn die zum Beispiel erforderliche Annahme einer Normalverteilung t-testnicht erfüllt ist und wenn die Transformation der Werte durch Rangfolge der Werte erfolgt Ein nicht parametrischer Test Mann-Whitney-U-testwürde dazu führen, dass mehr Informationen verloren gehen. Eine einzige Annahme, …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
Voraussetzungen für die Existenz einer Fisher-Informationsmatrix
Verschiedene Lehrbücher führen unterschiedliche Bedingungen für die Existenz einer Fisher-Informationsmatrix an. Im Folgenden sind einige dieser Bedingungen aufgeführt, von denen jede in einigen, aber nicht allen Definitionen der "Fisher-Informationsmatrix" vorkommt. Gibt es eine standardmäßige Mindestmenge an Bedingungen? Welche der folgenden 5 Bedingungen kann beseitigt werden? Wenn eine der Bedingungen beseitigt …

1
Determinante der Fisher-Information
(Ich habe eine ähnliche Frage auf math.se gestellt .) In der Informationsgeometrie ist die Determinante der Fisher-Informationsmatrix eine natürliche Volumenform auf einer statistischen Mannigfaltigkeit, daher hat sie eine schöne geometrische Interpretation. Die Tatsache, dass es beispielsweise in der Definition eines Jeffreys vorkommt, hängt mit seiner Invarianz unter Reparametrisierungen zusammen, die …

2
Fisher-Informationsmatrix-Determinante für ein überparametrisiertes Modell
Betrachten Sie eine Bernoulli-Zufallsvariable X∈{0,1}X∈{0,1}X\in\{0,1\} mit dem Parameter θθ\theta (Erfolgswahrscheinlichkeit). Die Wahrscheinlichkeitsfunktion und die Fisher-Information (eine 1×11×11 \times 1 Matrix) sind: L1(θ;X)I1(θ)=p(X|θ)=θX(1−θ)1−X=detI1(θ)=1θ(1−θ)L1(θ;X)=p(X|θ)=θX(1−θ)1−XI1(θ)=detI1(θ)=1θ(1−θ) \begin{align} \mathcal{L}_1(\theta;X) &= p(\left.X\right|\theta) = \theta^{X}(1-\theta)^{1-X} \\ \mathcal{I}_1(\theta) &= \det \mathcal{I}_1(\theta) = \frac{1}{\theta(1-\theta)} \end{align} Betrachten Sie nun eine " " Version mit zwei Parametern: der Erfolgswahrscheinlichkeit und der …

1
Welches Deep-Learning-Modell kann Kategorien klassifizieren, die sich nicht gegenseitig ausschließen?
Beispiele: Ich habe einen Satz in der Stellenbeschreibung: "Java Senior Engineer in UK". Ich möchte ein Deep-Learning-Modell verwenden, um es als zwei Kategorien vorherzusagen: English und IT jobs. Wenn ich ein traditionelles Klassifizierungsmodell verwende, kann es nur 1 Etikett mit softmaxFunktion auf der letzten Ebene vorhersagen . Somit kann ich …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.