Warum machen wir viel Aufhebens um die Verwendung von Fisher Scoring, wenn wir ein GLM anpassen?

16

Ich bin gespannt, warum wir GLMS-Anpassungen so behandeln, als wären sie ein spezielles Optimierungsproblem. Sind sie? Es scheint mir, dass sie nur maximale Wahrscheinlichkeit sind und dass wir die Wahrscheinlichkeit aufschreiben und dann ... maximieren wir sie! Warum verwenden wir Fisher-Scoring anstelle der unzähligen Optimierungsschemata, die in der angewandten Mathematikliteratur entwickelt wurden?

generalized-linear-model optimization fisher-scoring

— Andrew Robinson
quelle

13

Das Fisher-Scoring ist nur eine Version der Newton-Methode, die zufällig mit GLMs identifiziert wird. Es ist nichts Besonderes daran, außer dass die Fisher-Informationsmatrix für Zufallsvariablen in der Exponentialfamilie recht einfach zu finden ist. Es knüpft auch an viele andere Mathe-Stat-Materialien an, die in der Regel zur selben Zeit auftauchen, und vermittelt eine nette geometrische Vorstellung davon, was genau Fisher-Informationen bedeuten.

Es gibt absolut keinen Grund, warum ich mir vorstellen könnte, keinen anderen Optimierer zu verwenden, wenn Sie dies vorziehen. Ansonsten müssen Sie ihn möglicherweise manuell codieren, anstatt ein bereits vorhandenes Paket zu verwenden. Ich vermute, dass eine starke Betonung des Fisher-Scorings eine Kombination aus (in der Reihenfolge abnehmenden Gewichts) Pädagogik, einfacher Herleitung, historischer Voreingenommenheit und "hier nicht erfunden" -Syndrom ist.

— Reich
quelle

1

Ich halte das nicht für ganz richtig - der IRLS-Algorithmus verwendet das erwartete Hessische, während Newton-Raphson das beobachtete Hessische verwendet - siehe gen.lib.rus.ec/… für einen detaillierten Vergleich der beiden Algorithmen ...

— Tom Wenseleers

9

Es ist historisch und pragmatisch; Nelder und Wedderburn haben GLMs nach dem Reverse-Engineer-Prinzip entwickelt, bei denen Sie den MLE mit Fisher-Scoring (dh iterativ neu gewichtete kleinste Quadrate) finden können. Der Algorithmus stand zumindest im allgemeinen Fall vor den Modellen.

Es ist auch daran zu erinnern, dass IWLS in den frühen 70er Jahren verfügbar war, sodass GLMs eine wichtige Klasse von Modellen darstellten, über die man Bescheid wissen musste. Die Tatsache , Sie können GLM maximieren Wahrscheinlichkeiten unter Verwendung zuverlässig Newton-Typ - Algorithmen (sie haben in der Regel einzigartig MLE) auch dazu geführt, dass Programme wie GLIM könnten durch solche ohne Kenntnisse in der numerischen Optimierung verwendet werden.

— Gast
quelle

Ich halte das nicht für ganz richtig - der IRLS-Algorithmus verwendet das erwartete Hessische, während Newton-Raphson das beobachtete Hessische verwendet - siehe gen.lib.rus.ec/… für einen detaillierten Vergleich der beiden Algorithmen ...

— Tom Wenseleers