Hier gibt es mehrere Probleme.
(1) Das Modell muss explizit probabilistisch sein . In fast allen Fällen gibt es keinen Parametersatz, für den das lhs mit dem rhs für alle Ihre Daten übereinstimmt: Es gibt Residuen. Sie müssen Annahmen über diese Residuen treffen. Erwarten Sie, dass sie im Durchschnitt Null sind? Symmetrisch verteilt sein? Ungefähr normal verteilt sein?
Hier sind zwei Modelle, die mit dem angegebenen übereinstimmen, jedoch ein drastisch unterschiedliches Restverhalten zulassen (und daher normalerweise zu unterschiedlichen Parameterschätzungen führen). Sie können diese Modelle variieren, indem Sie die Annahmen über die gemeinsame Verteilung von variieren :ϵi
A: yi=β0exp(β1x1i+…+βkxki+ϵi)
B: yi=β0exp(β1x1i+…+βkxki)+ϵi.
(Beachten Sie, dass dies Modelle für die Daten . Normalerweise gibt es keinen geschätzten Datenwert .)yiyi^
(2) Die Notwendigkeit, Nullwerte für die ys zu behandeln, impliziert, dass das angegebene Modell (A) sowohl falsch als auch unangemessen ist , da es keinen Nullwert erzeugen kann, unabhängig davon, wie groß der Zufallsfehler ist. Das zweite Modell über (B) erlaubt null (oder sogar negative) Werte von ys. Man sollte jedoch nicht nur auf dieser Grundlage ein Modell auswählen. Um noch einmal # 1 zu wiederholen: Es ist wichtig, die Fehler einigermaßen gut zu modellieren.
(3) Die Linearisierung verändert das Modell . Typischerweise führt dies zu Modellen wie (A), aber nicht wie (B). Es wird von Personen verwendet, die ihre Daten ausreichend analysiert haben, um zu wissen, dass diese Änderung die Parameterschätzungen nicht nennenswert beeinflusst, und von Personen, die nicht wissen, was passiert. (Es ist oft schwierig, den Unterschied zu erkennen.)
(4) Ein üblicher Weg, um mit der Möglichkeit eines Nullwerts umzugehen, besteht darin, vorzuschlagen, dass (oder eine erneute Expression davon, wie die Quadratwurzel) eine streng positive Chance von gleich Null hat. Mathematisch mischen wir eine Punktmasse (eine "Delta-Funktion") mit einer anderen Verteilung. Diese Modelle sehen folgendermaßen aus:y
f(yi)θj∼F(θ);=βj0+βj1x1i+⋯+βjkxki
Dabei ist einer der im Vektor implizierten Parameter , eine Familie parametrisierter Verteilungen durch , und ist die Reexpression der ‚s (die "Link" Funktion eines verallgemeinerten linearen Modells: onestop Antwort sehen). (Natürlich ist dann = wenn ) Beispiele sind die Poisson- und Negativ-Binomial-Modelle ohne Inflation .PrFθ[f(Y)=0]=θj+1>0θFθ1,…,θjfyPrFθ[f(Y)≤t](1−θj+1)Fθ(t)t≠0
(5) Die Fragen der Konstruktion und Anpassung eines Modells sind verwandt, aber unterschiedlich . Als einfaches Beispiel kann sogar ein gewöhnliches Regressionsmodell auf viele Arten mittels kleinster Quadrate angepasst werden (was dieselben Parameterschätzungen wie Maximum Likelihood und fast dieselben Standardfehler ergibt). iterativ neu gewichtete kleinste Quadrate , verschiedene andere Formen von " robusten kleinsten Quadraten " usw. Die Wahl der Anpassung basiert häufig auf Bequemlichkeit, Zweckmäßigkeit ( z. B. Verfügbarkeit von Software), Vertrautheit, Gewohnheit oder Konvention, aber zumindest sollten einige Überlegungen angestellt werden gegeben, was für die angenommene Verteilung der Fehlerterme angemessen ist , auf was dieY=β0+β1X+ϵϵiVerlustfunktion für das Problem könnte vernünftigerweise sein und die Möglichkeit, zusätzliche Informationen zu nutzen (wie eine vorherige Verteilung für die Parameter).