Als «maximum-likelihood» getaggte Fragen

eine Methode zum Schätzen von Parametern eines statistischen Modells durch Auswahl des Parameterwerts, der die Wahrscheinlichkeit der Beobachtung der gegebenen Stichprobe optimiert.


3
Was ist „eingeschränkte maximale Wahrscheinlichkeit“ und wann sollte es angewendet werden?
Ich habe in der Zusammenfassung dieses Papiers gelesen, dass: "Das Maximum Likelihood (ML) -Verfahren von Hartley aud Rao wird durch Anpassen einer Transformation von Patterson und Thompson modifiziert, bei der die Wahrscheinlichkeitsrendernormalität in zwei Teile aufgeteilt wird, von denen einer frei von festen Effekten ist. Die Maximierung dieses Teils ergibt …

8
Generieren Sie eine Zufallsvariable mit einer definierten Korrelation zu einer oder mehreren vorhandenen Variablen.
Für eine Simulationsstudie muss ich Zufallsvariablen generieren, die eine vorab festgelegte (Populations-) Korrelation zu einer vorhandenen Variablen .Y.YY Ich sah in die RPakete copulaund CDVineder Zufall multivariate Verteilungen mit einer bestimmten Abhängigkeitsstruktur erzeugen kann. Es ist jedoch nicht möglich, eine der resultierenden Variablen an eine vorhandene Variable zu binden. Anregungen …

7
Beispiele, bei denen die Methode der Momente in kleinen Stichproben die maximale Wahrscheinlichkeit übertrifft?
Maximum Likelihood Estimators (MLE) sind asymptotisch effizient; Wir sehen das praktische Ergebnis darin, dass sie selbst bei kleinen Stichprobengrößen oftmals besser abschätzen als die Momentenmethode (MoM) (wenn sie sich unterscheiden) Hier bedeutet "besser als" in dem Sinne, dass typischerweise eine geringere Varianz vorliegt, wenn beide unverzerrt sind, und typischerweise ein …


9
Empfehlung für erweiterte Statistikbücher
Auf dieser Website gibt es mehrere Themen mit Buchempfehlungen zu Einführungsstatistiken und maschinellem Lernen. Ich suche jedoch nach einem Text zu erweiterten Statistiken, der nach Priorität geordnet ist: maximale Wahrscheinlichkeit, verallgemeinerte lineare Modelle, Hauptkomponentenanalyse, nichtlineare Modelle . Ich habe versucht, statistische Modelle von AC Davison, aber ehrlich gesagt musste ich …

2
Grundlegende Frage zu Fisher Information Matrix und Beziehung zu hessischen und Standardfehlern
Ok, das ist eine ziemlich grundlegende Frage, aber ich bin ein bisschen verwirrt. In meiner Diplomarbeit schreibe ich: Die Standardfehler können durch Berechnung der Umkehrung der Quadratwurzel der diagonalen Elemente der (beobachteten) Fisher-Informationsmatrix ermittelt werden: sμ^,σ^2=1I(μ^,σ^2)−−−−−−√sμ^,σ^2=1I(μ^,σ^2)\begin{align*} s_{\hat{\mu},\hat{\sigma}^2}=\frac{1}{\sqrt{\mathbf{I}(\hat{\mu},\hat{\sigma}^2)}} \end{align*} Da der Optimierungsbefehl in R minimiert die (beobachtete) Fisher-Informationsmatrix durch Berechnung der …


4
Warum minimieren wir die negative Wahrscheinlichkeit, wenn sie der Maximierung der Wahrscheinlichkeit entspricht?
Diese Frage hat mich lange Zeit verwirrt. Ich verstehe die Verwendung von "log" zur Maximierung der Wahrscheinlichkeit, daher frage ich nicht nach "log". Meine Frage ist, warum wir diese NLL erfunden haben, da die Maximierung der Protokollwahrscheinlichkeit der Minimierung der "negativen Protokollwahrscheinlichkeit" (NLL) entspricht. Warum nutzen wir die "positive Wahrscheinlichkeit" …

2
Was sagt die Inverse der Kovarianzmatrix über Daten aus? (Intuitiv)
Ich bin neugierig auf die Natur von . Kann jemand etwas intuitives über "Was sagt Σ - 1 über Daten?"Σ−1Σ−1\Sigma^{-1}Σ−1Σ−1\Sigma^{-1} Bearbeiten: Danke für die Antworten Nach einigen großartigen Kursen möchte ich einige Punkte hinzufügen: Es ist ein Maß für Information, dh ist eine Informationsmenge entlang der Richtung x .xTΣ−1xxTΣ−1xx^T\Sigma^{-1}xxxx Dualität: …

2
Intuition dahinter, warum Steins Paradoxon nur in Dimensionen gilt
Steins Beispiel zeigt, dass die maximale Wahrscheinlichkeitsschätzung von normalverteilten Variablen mit den Mitteln und Varianzen (unter einer Quadratverlustfunktion) unzulässig ist, wenn f . Einen guten Beweis finden Sie im ersten Kapitel von Large-Scale Inference: Empirische Bayes-Methoden zur Abschätzung, Prüfung und Vorhersage von Bradley Effron.μ 1 , … , μ n …

3
Interpretation des log transformierten Prädiktors und / oder der Antwort
Ich frage mich, ob es einen Unterschied in der Interpretation macht, ob nur die abhängigen, sowohl die abhängigen als auch die unabhängigen Variablen oder nur die unabhängigen Variablen log-transformiert werden. Betrachten Sie den Fall von log(DV) = Intercept + B1*IV + Error Ich kann die IV als prozentuale Erhöhung interpretieren, …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 




1
Cross-Entropy oder Log Likelihood in der Ausgabeebene
Ich habe diese Seite gelesen: http://neuralnetworksanddeeplearning.com/chap3.html und es hieß, dass Sigmoid-Ausgabeschicht mit Kreuzentropie mit Softmax-Ausgabeschicht mit Log-Wahrscheinlichkeit ziemlich ähnlich ist. Was passiert, wenn ich Sigmoid mit logarithmischer Wahrscheinlichkeit oder Softmax mit Kreuzentropie in der Ausgabeebene verwende? ist es gut Weil ich sehe, dass es nur einen kleinen Unterschied in der …

5
Umgang mit hierarchischen / verschachtelten Daten beim maschinellen Lernen
Ich werde mein Problem mit einem Beispiel erklären. Angenommen, Sie möchten das Einkommen einer Person anhand einiger Attribute vorhersagen: {Alter, Geschlecht, Land, Region, Stadt}. Sie haben einen Trainingsdatensatz wie diesen train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
Welche Informationen sind Fisher-Informationen?
Angenommen, wir haben eine Zufallsvariable . Wenn der wahre Parameter wäre, sollte die Wahrscheinlichkeitsfunktion maximiert und die Ableitung gleich Null sein. Dies ist das Grundprinzip des Maximum-Likelihood-Schätzers.X∼f(x|θ)X∼f(x|θ)X \sim f(x|\theta)θ0θ0\theta_0 Wie ich es verstehe, ist Fisher Information definiert als I(θ)=E[(∂∂θf(X|θ))2]I(θ)=E[(∂∂θf(X|θ))2]I(\theta) = \Bbb E \Bigg[\left(\frac{\partial}{\partial \theta}f(X|\theta)\right)^2\Bigg ] Wenn also der wahre Parameter …

1
Maximum-Likelihood-Schätzer für eine abgeschnittene Verteilung
Man betrachte unabhängige Stichproben die aus einer Zufallsvariablen , von der angenommen wird, dass sie einer abgeschnittenen Verteilung (z. B. einer abgeschnittenen Normalverteilung ) bekannter (endlicher) Minimal- und Maximalwerte und aber unbekannter Parameter und folgen . Wenn einer nicht abgeschnittenen Verteilung folgt, wären die Maximum-Likelihood-Schätzer und für und aus der …

3
Was sind einige illustrative Anwendungen der empirischen Wahrscheinlichkeit?
Ich habe von Owens empirischer Wahrscheinlichkeit gehört, habe sie aber bis vor kurzem nicht beachtet, bis ich auf sie in einem Papier von Interesse gestoßen bin ( Mengersen et al. 2012 ). Um es zu verstehen, habe ich herausgefunden, dass die Wahrscheinlichkeit der beobachteten Daten als , wobei und .L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L …

5
Maximum Likelihood Estimation - Warum wird es verwendet, obwohl es in vielen Fällen voreingenommen ist?
Die Maximum-Likelihood-Schätzung führt häufig zu verzerrten Schätzern (z. B. ist ihre Schätzung für die Stichprobenvarianz für die Gauß-Verteilung verzerrt). Was macht es dann so beliebt? Warum genau wird es so oft verwendet? Was macht es besonders besser als die alternative Methode der Momente? Außerdem ist mir aufgefallen, dass eine einfache …

3
Intuitives Denken hinter voreingenommenen Maximum-Likelihood-Schätzern
Ich bin verwirrt über voreingenommene Maximum-Likelihood- Schätzer (ML). Die Mathematik des gesamten Konzepts ist mir ziemlich klar, aber ich kann die intuitive Argumentation dahinter nicht verstehen. Bei einem bestimmten Datensatz, der Stichproben aus einer Verteilung enthält, die selbst eine Funktion eines Parameters ist, den wir schätzen möchten, ergibt der ML-Schätzer …

2
Wann sollte ich Rs nlm-Funktion für MLE * nicht * verwenden?
Ich bin auf ein paar Anleitungen gestoßen, die darauf hindeuten, dass ich Rs nlm für die Schätzung der maximalen Wahrscheinlichkeit verwende. Keiner von ihnen (einschließlich der Dokumentation von R ) bietet jedoch theoretische Anhaltspunkte für die Verwendung oder Nichtverwendung der Funktion. Soweit ich das beurteilen kann, führt nlm nur einen …


4
Gibt es für jedes MLE-Problem immer einen Maximierer?
Ich frage mich, ob es immer einen Maximierer für ein (log-) Wahrscheinlichkeitsschätzungsproblem gibt. Mit anderen Worten, gibt es eine Verteilung und einige ihrer Parameter, für die das MLE-Problem keinen Maximierer hat? Meine Frage stammt aus der Behauptung eines Ingenieurs, dass die Kostenfunktion (Wahrscheinlichkeit oder logarithmische Wahrscheinlichkeit, ich bin nicht sicher, …

4
Schätzung der Parameter der Studentschen t-Verteilung
Was sind die Maximum-Likelihood-Schätzer für die Parameter der Student-t-Verteilung? Existieren sie in geschlossener Form? Eine schnelle Google-Suche ergab keine Ergebnisse. Heute interessiert mich der univariate Fall, aber wahrscheinlich muss ich das Modell auf mehrere Dimensionen erweitern. EDIT: Mich interessieren eigentlich vor allem die Standort- und Skalenparameter. Im Moment kann ich …

4
Ist der unvoreingenommene Maximum-Likelihood-Schätzer immer der beste unvoreingenommene Schätzer?
Ich weiß, dass es sich bei regelmäßigen Problemen um den Maximum Likelihood Estimator (MLE) handeln muss, wenn wir einen besten regelmäßigen unverzerrten Schätzer haben. Aber im Allgemeinen, wenn wir eine unvoreingenommene MLE haben, wäre es auch der beste unvoreingenommene Schätzer (oder sollte ich es UMVUE nennen, solange es die kleinste …

2
Wie kann die Wahrscheinlichkeitsfunktion für die Binomialverteilung für die Parameterschätzung abgeleitet werden?
Gemäß Miller und Freund's Probability and Statistics for Engineers, 8ed (S. 217-218), wird die Wahrscheinlichkeitsfunktion zur Maximierung der Binomialverteilung (Bernoulli-Versuche) als angegeben L ( p ) = ∏ni = 1pxich( 1 - p )1 - xichL(p)=∏ich=1npxich(1-p)1-xichL(p) = \prod_{i=1}^np^{x_i}(1-p)^{1-x_i} Wie kommt man zu dieser Gleichung? Was die anderen Distributionen Poisson und …

1
Wie berechnet man in R bei einer Ausgabe von optim mit einer Hessischen Matrix die Parameter-Konfidenzintervalle mit der Hessischen Matrix?
Wie werden bei einer Ausgabe von optim mit einer Hessischen Matrix die Parameter-Konfidenzintervalle mithilfe der Hessischen Matrix berechnet? fit<-optim(..., hessian=T) hessian<-fit$hessian Ich interessiere mich hauptsächlich für den Kontext der Maximum-Likelihood-Analyse, bin aber gespannt, ob die Methode darüber hinaus erweitert werden kann.

4
Wie kann man die Eigenschaften der Kovarianzmatrix sicherstellen, wenn man ein multivariates normales Modell mit maximaler Wahrscheinlichkeit anpasst?
Angenommen, ich habe das folgende Modell yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i Dabei ist , ein Vektor erklärender Variablen, die Parameter der nichtlinearen Funktion und , wobei natürlich Matrix.x i θ f ≤ i ≤ N ( 0 , ≤ ) ≤ K × Kyi∈RKyi∈RKy_i\in \mathbb{R}^Kxixix_iθθ\thetafffεi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma)ΣΣ\SigmaK×KK×KK\times K Das Ziel ist die übliche Schätzung von …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.