Das Ziel der Maximum-Likelihood-Anpassung besteht darin, die Parameter einer Verteilung zu bestimmen, die am besten zu den Daten passen - und allgemeiner, wie diese Parameter mit den Kovariaten variieren können. Im Fall von GLMs wollen wir die Parameter einer exponentiellen Familienverteilung bestimmen und wie sie eine Funktion einiger Kovariaten X sind .θX
Für jede Wahrscheinlichkeitsverteilung in der überdispersen Exponentialfamilie wird garantiert, dass der Mittelwert über die kanonische Verknüpfungsfunktion θ = g ( μ ) mit dem kanonischen Exponentialfamilienparameter θ in Beziehung steht . Wir können sogar eine allgemeine Formel für g bestimmen , und typischerweise ist g auch invertierbar. Wenn wir einfach μ = g - 1 ( θ ) und θ = X β setzen , erhalten wir automatisch ein Modell dafür, wie μ und θ mit variierenμθθ=g(μ)ggμ=g−1(θ)θ=Xβμθ , egal mit welcher Verteilung wir es zu tun haben, und dieses Modell kanndurch konvexe Optimierung einfach und zuverlässig an Daten angepasst werden. Matts Antwortzeigt, wie es für die Bernoulli-Distribution funktioniert, aber die wahre Magie ist, dass es für jede Distribution in der Familie funktioniert.X
Der Modus genießt diese Eigenschaften nicht. Wie Cliff AB hervorhebt, hat der Modus möglicherweise nicht einmal eine bijektive Beziehung zum Verteilungsparameter, so dass die Schlussfolgerung aus dem Modus nur eine sehr begrenzte Leistung hat. Nehmen wir zum Beispiel die Bernoulli-Distribution. Sein Modus ist entweder 0 oder 1, und wenn Sie den Modus kennen, erfahren Sie nur, ob , die Wahrscheinlichkeit von 1, größer oder kleiner als 1/2 ist. Im Gegensatz dazu sagt Ihnen der Mittelwert genau, was p ist.pp
Um nun einige Verwirrung in der Frage zu klären: Bei der maximalen Wahrscheinlichkeit geht es nicht darum, den Modus einer Verteilung zu finden, da die Wahrscheinlichkeit nicht dieselbe Funktion wie die Verteilung hat. Die Wahrscheinlichkeit bezieht Ihre Modellverteilung in die Formel ein, aber hier enden die Ähnlichkeiten. Die Wahrscheinlichkeitsfunktion nimmt einen Parameterwert θ als Eingabe und gibt an, wie "wahrscheinlich" Ihr gesamter Datensatz ist, vorausgesetzt , die Modellverteilung hat θ . Die Modellverteilung f & thgr; ( y ) hängt von & thgr ; ab, nimmt jedoch als Funktion einen Wert y anL ( θ )θθfθ( y)θyals Eingabe und gibt an, wie oft eine Zufallsstichprobe aus dieser Verteilung gleich . Das Maximum von L ( θ ) und der Modus von f θ ( y ) sind nicht dasselbe.yL ( θ )fθ( y)
Vielleicht hilft es, die Formel der Wahrscheinlichkeit zu sehen. Im Fall von IID-Daten haben wir
L ( θ ) = n ∏ i = 1 f θ ( y i )
Die Werte von y i sind alle fest - sie sind die Werte von Ihnen Daten. Die maximale Wahrscheinlichkeit besteht darin, das θ zu finden , das L ( θ ) maximiert . Das Finden des Verteilungsmodus würde das Finden des y finden , das f maximierty1, y2, … , Y.n
L ( θ ) = ∏i = 1nfθ( yich)
yichθL ( θ )y , was wir nicht wollen:
y ist in der Wahrscheinlichkeit festgelegt, keine Variable.
fθ( y)y
Das Finden des Maximums der Wahrscheinlichkeitsfunktion ist also im Allgemeinen nicht dasselbe wie das Finden des Modus der Modellverteilung. (Es ist der Modus einer anderen Distribution, wenn Sie einen objektiven Bayesianer fragen, aber das ist eine ganz andere Geschichte!)