Am wichtigsten ist die Logik hinter dem Modell. Ihre Variable "Anzahl der Patente pro Jahr" ist eine Zählvariable, daher wird die Poisson-Regression angezeigt. Dies ist ein GLM (generalisiertes lineares Modell) mit (normalerweise) Protokollverknüpfungsfunktion, während die übliche lineare Regression ein Gaußsches GLM mit Identitätsverknüpfung ist. Hier ist es wirklich die Protokollverbindungsfunktion, die am wichtigsten ist, wichtiger als die Fehlerverteilung (Poisson oder Gauß).
Die Variable "Patente" ist eine umfangreiche Variable: siehe intensive und umfangreiche Eigenschaften . Für intensive Variablen, wie z. B. Temperatur, sind häufig lineare Modelle (mit Identitätsverknüpfung) geeignet. Bei einer umfangreichen Variablen ist dies jedoch anders. Denken Sie, dass sich eines Ihrer Pharmaunternehmen in zwei verschiedene Unternehmen aufteilt. Dann mussten die Patente auf die beiden neuen Unternehmen aufgeteilt werden. Was passiert mit den Kovariablen, den in Ihrer Regression? Variablen wie Anzahl der Mitarbeiter und RD-Budget müssten ebenfalls aufgeteilt werden.x
In diesem Zusammenhang ist eine intensive Variable im Großen und Ganzen eine Variable, die unabhängig von der Unternehmensgröße ist, während eine umfangreiche Variable (typischerweise linear) von der Unternehmensgröße abhängt. In gewisser Weise messen wir also wiederholt Größeneffekte , wenn die Regressionsgleichung viele verschiedene umfangreiche Variablen enthält . Das scheint überflüssig, daher sollten wir versuchen, Variablen in intensiver Form auszudrücken , wie das RD-Budget pro Mitarbeiter (oder als Prozentsatz des Gesamtbudgets), ebenso die Einnahmen usw. Eine Variable wie die Anzahl der Mitarbeiter muss wie folgt belassen werden umfangreich. Weitere Informationen zu diesem umfangreichen / intensiven variablen Thema finden Sie in der Antwort von @ onestop auf " Umgang mit korrelierten Regressoren" .
Betrachten wir dies algebraisch:
sind Patente, Budget (pro Mitarbeiter), Mitarbeiter im ursprünglichen Unternehmen, während
P 1 , B 1 , E 1 und P 2 , B 2 , E 2 die entsprechenden Variablen nach a sind Teilt. Nehmen wir wie oben an, dass E die einzige umfassende Kovariable ist (mit P natürlich auch umfassend).P,B,EP1,B1,E1P2,B2,E2EP
Dann haben wir vor der Teilung das Modell, Identitätsverknüpfung, wobei der zufällige Teil weggelassen wird:
Die aufgeteilten Brüche seien α , 1 - α, also für Firma 1 nach der Teilung, die wir erhalten
α P
P= μ +β1E+ β2B
α , 1 - αα PP1= α μ + α β1E+ α β2B= α μ + β1E1+ αβ2B1
P1= α P, E1= α EB1= BEunabhängig von der Unternehmensgröße, die Größe beeinflusst alle anderen Parameter. Das erschwert die Interpretation der Ergebnisse, insbesondere, wenn Sie in Ihren Daten Unternehmen unterschiedlicher Größe haben, wie werden Sie dann diese Koeffizienten interpretieren? Der Vergleich mit anderen Studien, die auf anderen Daten usw. basieren, wird extrem kompliziert.
Lassen Sie uns nun sehen, ob die Verwendung einer Protokollverknüpfungsfunktion helfen kann. Auch hier schreiben wir idealisierte Modelle ohne Störungsterme. Die Variablen sind wie oben.
Zuerst das Modell vor der Teilung:
Nach der Teilung erhalten wir für Unternehmen eins:
P 1
P= exp( μ + β1E+ β2B )
P1P1= exp( logα ) exp( μ + β1E+ β2B )= exp( logα + μ + β1E+ β2B1)
E
P= exp( μ + β1LogE+ β2B )
P1P1P1P1= exp( logα ) exp(μ + β1LogE+ β2B )= exp( logα +μ + β1LogE+ β2B1)= exp( ( 1 - β) logα + μ + β1LogE1+ β2B1)= exp(μ′+ β1LogE1+ β2B1)
μ′
Dies erleichtert die Interpretation der Ergebnisse und den Vergleich mit Studien, die andere Daten, zeitliche Trends usw. verwenden. Sie können dieses Formular nicht mit Parametern mit größenunabhängigen Interpretationen mit einem Identitätslink erreichen.
Fazit: Verwenden Sie eine GLM mit Log-Link-Funktion, vielleicht eine Poisson-Regression oder ein Negativ-Binomial, oder ... Die Link-Funktion ist um Größenordnungen wichtiger!
Zusammenfassend lässt sich sagen, dass beim Erstellen eines Regressionsmodells für eine Antwortvariable, die wie eine Zählvariable umfangreich ist ,
Versuchen Sie, Kovariablen in intensiver Form auszudrücken.
Kovariablen, die als umfangreich belassen werden müssen: Protokollieren Sie sie (die obige Algebra hängt davon ab, dass es höchstens eine umfassende Kovariable gibt).
Verwenden Sie eine Protokollverknüpfungsfunktion.
Für Sekundärentscheidungen können dann andere Kriterien verwendet werden, beispielsweise die Verteilung des Störungsterms.