Passgenauigkeit und welches Modell für lineare Regression oder Poisson verwendet werden soll

Ich benötige einige Ratschläge in Bezug auf zwei Hauptprobleme in meiner Forschung, die eine Fallstudie von drei großen Pharmazeutika und Innovationen ist. Anzahl der Patente pro Jahr ist die abhängige Variable.

Meine Fragen sind

Was sind die wichtigsten Kriterien für ein gutes Modell? Was ist mehr / weniger wichtig? Sind die meisten oder alle Variablen von Bedeutung? Ist es das Problem von "F STATISTIC"? Ist es der Wert von "Adjusted R squared"?
Zweitens, wie kann ich das am besten geeignete Modell für die Forschung auswählen? Neben Patenten, die eine Zählvariable sind (also möglicherweise eine Poisson-Zählung), habe ich erklärende Variablen wie die Kapitalrendite, das Forschungs- und Entwicklungsbudget, den wiederholten Partner (% keine binäre Variable), die Unternehmensgröße (Mitarbeiter) und ein paar mehr. Soll ich eine lineare Regression oder Poisson durchführen?

— Nitzan
quelle

Kjetil hat eine gute detaillierte Antwort gegeben. Eine schnellere und kürzere Meinung, die mit seinem Argument übereinstimmt, ist, dass das, was Sie als "zweite" bezeichnen, die wirklich wichtige Frage ist. Was Sie zuerst erwähnen, ist nebensächlich.

— Nick Cox

Am wichtigsten ist die Logik hinter dem Modell. Ihre Variable "Anzahl der Patente pro Jahr" ist eine Zählvariable, daher wird die Poisson-Regression angezeigt. Dies ist ein GLM (generalisiertes lineares Modell) mit (normalerweise) Protokollverknüpfungsfunktion, während die übliche lineare Regression ein Gaußsches GLM mit Identitätsverknüpfung ist. Hier ist es wirklich die Protokollverbindungsfunktion, die am wichtigsten ist, wichtiger als die Fehlerverteilung (Poisson oder Gauß).

Die Variable "Patente" ist eine umfangreiche Variable: siehe intensive und umfangreiche Eigenschaften . Für intensive Variablen, wie z. B. Temperatur, sind häufig lineare Modelle (mit Identitätsverknüpfung) geeignet. Bei einer umfangreichen Variablen ist dies jedoch anders. Denken Sie, dass sich eines Ihrer Pharmaunternehmen in zwei verschiedene Unternehmen aufteilt. Dann mussten die Patente auf die beiden neuen Unternehmen aufgeteilt werden. Was passiert mit den Kovariablen, den in Ihrer Regression? Variablen wie Anzahl der Mitarbeiter und RD-Budget müssten ebenfalls aufgeteilt werden. $x$

In diesem Zusammenhang ist eine intensive Variable im Großen und Ganzen eine Variable, die unabhängig von der Unternehmensgröße ist, während eine umfangreiche Variable (typischerweise linear) von der Unternehmensgröße abhängt. In gewisser Weise messen wir also wiederholt Größeneffekte , wenn die Regressionsgleichung viele verschiedene umfangreiche Variablen enthält . Das scheint überflüssig, daher sollten wir versuchen, Variablen in intensiver Form auszudrücken , wie das RD-Budget pro Mitarbeiter (oder als Prozentsatz des Gesamtbudgets), ebenso die Einnahmen usw. Eine Variable wie die Anzahl der Mitarbeiter muss wie folgt belassen werden umfangreich. Weitere Informationen zu diesem umfangreichen / intensiven variablen Thema finden Sie in der Antwort von @ onestop auf " Umgang mit korrelierten Regressoren" .

Betrachten wir dies algebraisch: sind Patente, Budget (pro Mitarbeiter), Mitarbeiter im ursprünglichen Unternehmen, während und die entsprechenden Variablen nach a sind Teilt. Nehmen wir wie oben an, dass die einzige umfassende Kovariable ist (mit natürlich auch umfassend). $P, B, E$ $P_1, B_1, E_1$ $P_2, B_2, E_2$ $E$ $P$

Dann haben wir vor der Teilung das Modell, Identitätsverknüpfung, wobei der zufällige Teil weggelassen wird: Die aufgeteilten Brüche seien also für Firma 1 nach der Teilung, die wir erhalten

P = μ + β_{1} E + β_{2} B

$P= \mu+\beta_1 E + \beta_2 B$

α, 1 - α

$\alpha, 1-\alpha$

\begin{aligned} α P & = α μ + α β_{1} E + α β_{2} B \\ P_{1} & = α μ + β_{1} E_{1} + α β_{2} B_{1} \end{aligned}

$\begin{align} \alpha P &= \alpha \mu +\alpha\beta_1 E +\alpha\beta_2 B \\[5pt] P_1 &= \alpha\mu + \beta_1 E_1 + \alpha\beta_2 B_1 \end{align}$

P_{1} = α P, E_{1} = α E

$P_1=\alpha P, E_1=\alpha E$

B_{1} = B

$B_1=B$

E

$E$ unabhängig von der Unternehmensgröße, die Größe beeinflusst alle anderen Parameter. Das erschwert die Interpretation der Ergebnisse, insbesondere, wenn Sie in Ihren Daten Unternehmen unterschiedlicher Größe haben, wie werden Sie dann diese Koeffizienten interpretieren? Der Vergleich mit anderen Studien, die auf anderen Daten usw. basieren, wird extrem kompliziert.

Lassen Sie uns nun sehen, ob die Verwendung einer Protokollverknüpfungsfunktion helfen kann. Auch hier schreiben wir idealisierte Modelle ohne Störungsterme. Die Variablen sind wie oben.

Zuerst das Modell vor der Teilung: Nach der Teilung erhalten wir für Unternehmen eins:

P = \exp (μ + β_{1} E + β_{2} B)

$P = \exp\left(\mu+\beta_1 E + \beta_2 B\right)$

\begin{aligned} P_{1} & = \exp (Log α) \exp (μ + β_{1} E + β_{2} B) \\ P_{1} & = \exp (Log α + μ + β_{1} E + β_{2} B_{1}) \end{aligned}

$\begin{align} P_1 &= \exp(\log\alpha) \exp\left(\mu+\beta_1 E + \beta_2 B\right) \\[5pt] P_1 &= \exp\left(\log\alpha+\mu+\beta_1 E +\beta_2 B_1 \right) \end{align}$

E

$E$

P = \exp (μ + β_{1} Log E + β_{2} B)

$P = \exp\left(\mu+\beta_1 \log E + \beta_2 B\right)$

\begin{aligned} P_{1} & = \exp (Log α) \exp (μ + β_{1} Log E + β_{2} B) \\ P_{1} & = \exp (Log α + μ + β_{1} Log E + β_{2} B_{1}) \\ P_{1} & = \exp ((1 - β) Log α + μ + β_{1} Log E_{1} + β_{2} B_{1}) \\ P_{1} & = \exp (μ^{'} + β_{1} Log E_{1} + β_{2} B_{1}) \end{aligned}

$\begin{align} P_1 &= \exp(\log\alpha) \exp\left(\hspace{9.5mm}\mu+\beta_1 \log E + \beta_2 B\right) \\[5pt] P_1 &= \exp\left(\log\alpha+\hspace{6mm}\hspace{9.5mm}\mu+\beta_1 \log E +\beta_2 B_1 \right) \\[5pt] P_1 &= \exp\left((1-\beta)\log\alpha+\mu+\beta_1 \log E_1 +\beta_2 B_1\right) \\[5pt] P_1 &= \exp\left(\hspace{31mm}\mu'+\beta_1 \log E_1 +\beta_2 B_1\right) \end{align}$

μ^{'}

$\mu'$

Dies erleichtert die Interpretation der Ergebnisse und den Vergleich mit Studien, die andere Daten, zeitliche Trends usw. verwenden. Sie können dieses Formular nicht mit Parametern mit größenunabhängigen Interpretationen mit einem Identitätslink erreichen.

Fazit: Verwenden Sie eine GLM mit Log-Link-Funktion, vielleicht eine Poisson-Regression oder ein Negativ-Binomial, oder ... Die Link-Funktion ist um Größenordnungen wichtiger!

Zusammenfassend lässt sich sagen, dass beim Erstellen eines Regressionsmodells für eine Antwortvariable, die wie eine Zählvariable umfangreich ist ,

Versuchen Sie, Kovariablen in intensiver Form auszudrücken.
Kovariablen, die als umfangreich belassen werden müssen: Protokollieren Sie sie (die obige Algebra hängt davon ab, dass es höchstens eine umfassende Kovariable gibt).
Verwenden Sie eine Protokollverknüpfungsfunktion.

Für Sekundärentscheidungen können dann andere Kriterien verwendet werden, beispielsweise die Verteilung des Störungsterms.

— kjetil b halvorsen
quelle

Ich dachte, eine Poisson-Regression sei eine GLS-Regression mit Log-Link-Funktion?

— Sideshow Bob

Normalerweise ja, aber Sie können auch eine Poisson-Regression mit einem Identitätslink (oder einem anderen Link, z. B. einer Quadratwurzel) in Betracht ziehen. Aber mein Argument hier zeigt, dass Sie normalerweise die Protokollverknüpfung möchten.

— kjetil b halvorsen

(1 - β)

$(1-\beta)$

μ

$\mu$