eine Methode zum Schätzen von Parametern eines statistischen Modells durch Auswahl des Parameterwerts, der die Wahrscheinlichkeit der Beobachtung der gegebenen Stichprobe optimiert.
Könnte mir jemand die Maximum-Likelihood-Schätzung (MLE) im Detail erklären? Ich möchte das zugrunde liegende Konzept kennen, bevor ich mich mit mathematischen Ableitungen oder Gleichungen befasse.
Ich habe in der Zusammenfassung dieses Papiers gelesen, dass: "Das Maximum Likelihood (ML) -Verfahren von Hartley aud Rao wird durch Anpassen einer Transformation von Patterson und Thompson modifiziert, bei der die Wahrscheinlichkeitsrendernormalität in zwei Teile aufgeteilt wird, von denen einer frei von festen Effekten ist. Die Maximierung dieses Teils ergibt …
Für eine Simulationsstudie muss ich Zufallsvariablen generieren, die eine vorab festgelegte (Populations-) Korrelation zu einer vorhandenen Variablen .Y.YY Ich sah in die RPakete copulaund CDVineder Zufall multivariate Verteilungen mit einer bestimmten Abhängigkeitsstruktur erzeugen kann. Es ist jedoch nicht möglich, eine der resultierenden Variablen an eine vorhandene Variable zu binden. Anregungen …
Maximum Likelihood Estimators (MLE) sind asymptotisch effizient; Wir sehen das praktische Ergebnis darin, dass sie selbst bei kleinen Stichprobengrößen oftmals besser abschätzen als die Momentenmethode (MoM) (wenn sie sich unterscheiden) Hier bedeutet "besser als" in dem Sinne, dass typischerweise eine geringere Varianz vorliegt, wenn beide unverzerrt sind, und typischerweise ein …
Ich sehe, dass diese Begriffe verwendet werden, und ich verwechsle sie immer wieder. Gibt es eine einfache Erklärung für die Unterschiede zwischen ihnen?
Auf dieser Website gibt es mehrere Themen mit Buchempfehlungen zu Einführungsstatistiken und maschinellem Lernen. Ich suche jedoch nach einem Text zu erweiterten Statistiken, der nach Priorität geordnet ist: maximale Wahrscheinlichkeit, verallgemeinerte lineare Modelle, Hauptkomponentenanalyse, nichtlineare Modelle . Ich habe versucht, statistische Modelle von AC Davison, aber ehrlich gesagt musste ich …
Ok, das ist eine ziemlich grundlegende Frage, aber ich bin ein bisschen verwirrt. In meiner Diplomarbeit schreibe ich: Die Standardfehler können durch Berechnung der Umkehrung der Quadratwurzel der diagonalen Elemente der (beobachteten) Fisher-Informationsmatrix ermittelt werden: sμ^,σ^2=1I(μ^,σ^2)−−−−−−√sμ^,σ^2=1I(μ^,σ^2)\begin{align*} s_{\hat{\mu},\hat{\sigma}^2}=\frac{1}{\sqrt{\mathbf{I}(\hat{\mu},\hat{\sigma}^2)}} \end{align*} Da der Optimierungsbefehl in R minimiert die (beobachtete) Fisher-Informationsmatrix durch Berechnung der …
Diese Frage hat mich lange Zeit verwirrt. Ich verstehe die Verwendung von "log" zur Maximierung der Wahrscheinlichkeit, daher frage ich nicht nach "log". Meine Frage ist, warum wir diese NLL erfunden haben, da die Maximierung der Protokollwahrscheinlichkeit der Minimierung der "negativen Protokollwahrscheinlichkeit" (NLL) entspricht. Warum nutzen wir die "positive Wahrscheinlichkeit" …
Ich bin neugierig auf die Natur von . Kann jemand etwas intuitives über "Was sagt Σ - 1 über Daten?"Σ−1Σ−1\Sigma^{-1}Σ−1Σ−1\Sigma^{-1} Bearbeiten: Danke für die Antworten Nach einigen großartigen Kursen möchte ich einige Punkte hinzufügen: Es ist ein Maß für Information, dh ist eine Informationsmenge entlang der Richtung x .xTΣ−1xxTΣ−1xx^T\Sigma^{-1}xxxx Dualität: …
Steins Beispiel zeigt, dass die maximale Wahrscheinlichkeitsschätzung von normalverteilten Variablen mit den Mitteln und Varianzen (unter einer Quadratverlustfunktion) unzulässig ist, wenn f . Einen guten Beweis finden Sie im ersten Kapitel von Large-Scale Inference: Empirische Bayes-Methoden zur Abschätzung, Prüfung und Vorhersage von Bradley Effron.μ 1 , … , μ n …
Ich frage mich, ob es einen Unterschied in der Interpretation macht, ob nur die abhängigen, sowohl die abhängigen als auch die unabhängigen Variablen oder nur die unabhängigen Variablen log-transformiert werden. Betrachten Sie den Fall von log(DV) = Intercept + B1*IV + Error Ich kann die IV als prozentuale Erhöhung interpretieren, …
Diese Frage beschäftigt mich seit über einem Monat. In der Ausgabe der Amstat News vom Februar 2015 ist ein Artikel von Berkeley-Professor Mark van der Laan zu lesen, in dem die Leute wegen der Verwendung ungenauer Modelle beschimpft werden. Er stellt fest, dass Statistik durch die Verwendung von Modellen eher …
Was ist der Hauptunterschied zwischen der Schätzung der maximalen Wahrscheinlichkeit (MLE) und der Schätzung der kleinsten Quadrate (LSE)? Warum können wir MLE nicht zur Vorhersage von Werten in der linearen Regression und umgekehrt verwenden?yyy Jede Hilfe zu diesem Thema wird sehr geschätzt.
Numerisch die Ableitung MLE s von GLMM schwierig ist und in der Praxis, ich weiß, wir sollten nicht Brute - Force - Optimierung verwenden (zB mit optimauf einfache Art und Weise). Aus pädagogischen Gründen möchte ich es jedoch versuchen, um sicherzustellen, dass ich das Modell richtig verstehe (siehe folgenden Code). …
Ich habe diese Seite gelesen: http://neuralnetworksanddeeplearning.com/chap3.html und es hieß, dass Sigmoid-Ausgabeschicht mit Kreuzentropie mit Softmax-Ausgabeschicht mit Log-Wahrscheinlichkeit ziemlich ähnlich ist. Was passiert, wenn ich Sigmoid mit logarithmischer Wahrscheinlichkeit oder Softmax mit Kreuzentropie in der Ausgabeebene verwende? ist es gut Weil ich sehe, dass es nur einen kleinen Unterschied in der …
Ich werde mein Problem mit einem Beispiel erklären. Angenommen, Sie möchten das Einkommen einer Person anhand einiger Attribute vorhersagen: {Alter, Geschlecht, Land, Region, Stadt}. Sie haben einen Trainingsdatensatz wie diesen train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) …
Angenommen, wir haben eine Zufallsvariable . Wenn der wahre Parameter wäre, sollte die Wahrscheinlichkeitsfunktion maximiert und die Ableitung gleich Null sein. Dies ist das Grundprinzip des Maximum-Likelihood-Schätzers.X∼f(x|θ)X∼f(x|θ)X \sim f(x|\theta)θ0θ0\theta_0 Wie ich es verstehe, ist Fisher Information definiert als I(θ)=E[(∂∂θf(X|θ))2]I(θ)=E[(∂∂θf(X|θ))2]I(\theta) = \Bbb E \Bigg[\left(\frac{\partial}{\partial \theta}f(X|\theta)\right)^2\Bigg ] Wenn also der wahre Parameter …
Man betrachte unabhängige Stichproben die aus einer Zufallsvariablen , von der angenommen wird, dass sie einer abgeschnittenen Verteilung (z. B. einer abgeschnittenen Normalverteilung ) bekannter (endlicher) Minimal- und Maximalwerte und aber unbekannter Parameter und folgen . Wenn einer nicht abgeschnittenen Verteilung folgt, wären die Maximum-Likelihood-Schätzer und für und aus der …
Ich habe von Owens empirischer Wahrscheinlichkeit gehört, habe sie aber bis vor kurzem nicht beachtet, bis ich auf sie in einem Papier von Interesse gestoßen bin ( Mengersen et al. 2012 ). Um es zu verstehen, habe ich herausgefunden, dass die Wahrscheinlichkeit der beobachteten Daten als , wobei und .L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L …
Die Maximum-Likelihood-Schätzung führt häufig zu verzerrten Schätzern (z. B. ist ihre Schätzung für die Stichprobenvarianz für die Gauß-Verteilung verzerrt). Was macht es dann so beliebt? Warum genau wird es so oft verwendet? Was macht es besonders besser als die alternative Methode der Momente? Außerdem ist mir aufgefallen, dass eine einfache …
Ich bin verwirrt über voreingenommene Maximum-Likelihood- Schätzer (ML). Die Mathematik des gesamten Konzepts ist mir ziemlich klar, aber ich kann die intuitive Argumentation dahinter nicht verstehen. Bei einem bestimmten Datensatz, der Stichproben aus einer Verteilung enthält, die selbst eine Funktion eines Parameters ist, den wir schätzen möchten, ergibt der ML-Schätzer …
Ich bin auf ein paar Anleitungen gestoßen, die darauf hindeuten, dass ich Rs nlm für die Schätzung der maximalen Wahrscheinlichkeit verwende. Keiner von ihnen (einschließlich der Dokumentation von R ) bietet jedoch theoretische Anhaltspunkte für die Verwendung oder Nichtverwendung der Funktion. Soweit ich das beurteilen kann, führt nlm nur einen …
Ich habe gerade angefangen, etwas über Statistiken und Models zu lernen. Nach meinem derzeitigen Verständnis verwenden wir MLE, um die besten Parameter für ein Modell zu schätzen. Wenn ich jedoch zu verstehen versuche, wie die neuronalen Netze funktionieren, scheint es, als würden sie stattdessen häufig einen anderen Ansatz verwenden, um …
Ich frage mich, ob es immer einen Maximierer für ein (log-) Wahrscheinlichkeitsschätzungsproblem gibt. Mit anderen Worten, gibt es eine Verteilung und einige ihrer Parameter, für die das MLE-Problem keinen Maximierer hat? Meine Frage stammt aus der Behauptung eines Ingenieurs, dass die Kostenfunktion (Wahrscheinlichkeit oder logarithmische Wahrscheinlichkeit, ich bin nicht sicher, …
Was sind die Maximum-Likelihood-Schätzer für die Parameter der Student-t-Verteilung? Existieren sie in geschlossener Form? Eine schnelle Google-Suche ergab keine Ergebnisse. Heute interessiert mich der univariate Fall, aber wahrscheinlich muss ich das Modell auf mehrere Dimensionen erweitern. EDIT: Mich interessieren eigentlich vor allem die Standort- und Skalenparameter. Im Moment kann ich …
Ich weiß, dass es sich bei regelmäßigen Problemen um den Maximum Likelihood Estimator (MLE) handeln muss, wenn wir einen besten regelmäßigen unverzerrten Schätzer haben. Aber im Allgemeinen, wenn wir eine unvoreingenommene MLE haben, wäre es auch der beste unvoreingenommene Schätzer (oder sollte ich es UMVUE nennen, solange es die kleinste …
Gemäß Miller und Freund's Probability and Statistics for Engineers, 8ed (S. 217-218), wird die Wahrscheinlichkeitsfunktion zur Maximierung der Binomialverteilung (Bernoulli-Versuche) als angegeben L ( p ) = ∏ni = 1pxich( 1 - p )1 - xichL(p)=∏ich=1npxich(1-p)1-xichL(p) = \prod_{i=1}^np^{x_i}(1-p)^{1-x_i} Wie kommt man zu dieser Gleichung? Was die anderen Distributionen Poisson und …
Wie werden bei einer Ausgabe von optim mit einer Hessischen Matrix die Parameter-Konfidenzintervalle mithilfe der Hessischen Matrix berechnet? fit<-optim(..., hessian=T) hessian<-fit$hessian Ich interessiere mich hauptsächlich für den Kontext der Maximum-Likelihood-Analyse, bin aber gespannt, ob die Methode darüber hinaus erweitert werden kann.
Angenommen, ich habe das folgende Modell yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i Dabei ist , ein Vektor erklärender Variablen, die Parameter der nichtlinearen Funktion und , wobei natürlich Matrix.x i θ f ≤ i ≤ N ( 0 , ≤ ) ≤ K × Kyi∈RKyi∈RKy_i\in \mathbb{R}^Kxixix_iθθ\thetafffεi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma)ΣΣ\SigmaK×KK×KK\times K Das Ziel ist die übliche Schätzung von …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.