Je nachdem, was genau Sie unter "3 Wiederholungen pro Quartal" verstehen, kann ein Panel-Datenmodell ( Wikipedia ) sinnvoll sein. Dies würde bedeuten, dass Sie drei Messungen pro Quartal durchführen, eine aus drei verschiedenen Quellen, die über die Zeit gleich bleiben. Ihre Daten würden ungefähr so aussehen:
obs quarter value
A 1 2.2
A 2 2.3
A 3 2.4
B 1 1.8
B 2 1.7
B 3 1.6
C 1 3.3
C 2 3.4
C 3 3.5
Wenn Sie sich das ansehen, gibt es eine Reihe von Modellen für die Arbeit mit Paneldaten. Hier ist eine anständige Präsentation , die einige der grundlegenden R abdeckt, die Sie zum Anzeigen von Paneldaten verwenden würden. Dieses Dokument geht etwas tiefer, wenn auch aus ökonometrischer Sicht.
Wenn Ihre Daten jedoch nicht ganz mit den Panel-Datenmethoden übereinstimmen, stehen andere Tools für "gepoolte Daten" zur Verfügung. Eine Definition aus diesem Artikel (pdf) :
Das Zusammenführen von Daten bedeutet eine statistische Analyse unter Verwendung mehrerer Datenquellen, die sich auf mehrere Populationen beziehen. Es umfasst Mittelung, Vergleiche und gemeinsame Interpretationen der Informationen. Je nachdem, ob die beteiligten Datenquellen und Populationen gleich / ähnlich oder unterschiedlich sind, treten auch unterschiedliche Szenarien und Probleme auf.
Wie Sie anhand dieser Definition sehen können, hängen die Techniken, die Sie verwenden werden, davon ab, was genau Sie aus Ihren Daten lernen möchten.
Wenn ich Ihnen einen Startplatz vorschlagen würde, unter der Annahme, dass Ihre drei Ziehungen für jedes Quartal im Zeitverlauf konsistent sind, würde ich sagen, beginnen Sie mit a Schätzer für feste Effekte (auch als Innenschätzer bezeichnet) mit einem Paneldatenmodell von Ihnen verwenden Daten.
In meinem obigen Beispiel würde der Code ungefähr so aussehen:
> Panel = data.frame(value=c(2.2,2.3,2.4,1.8,1.7,1.9,3.3,3.4,3.5),
quarter=c(1,2,3,1,2,3,1,2,3),
obs=c("A","A","A","B","B","B","C","C","C"))
> fixed.dum <-lm(value ~ quarter + factor(obs), data=Panel)
> summary(fixed.dum)
Welches gibt uns die folgende Ausgabe:
Call:
lm(formula = value ~ quarter + factor(obs), data = Panel)
Residuals:
1 2 3 4 5 6 7
-1.667e-02 -8.940e-17 1.667e-02 8.333e-02 -1.000e-01 1.667e-02 -1.667e-02
8 9
1.162e-16 1.667e-02
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.13333 0.06055 35.231 3.47e-07 ***
quarter 0.08333 0.02472 3.371 0.019868 *
factor(obs)B -0.50000 0.04944 -10.113 0.000162 ***
factor(obs)C 1.10000 0.04944 22.249 3.41e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.06055 on 5 degrees of freedom
Multiple R-squared: 0.9955, Adjusted R-squared: 0.9928
F-statistic: 369.2 on 3 and 5 DF, p-value: 2.753e-06
Hier können wir die Auswirkung der Zeit im Koeffizienten auf die Viertelvariable sowie die Auswirkung der Zugehörigkeit zu Gruppe B oder Gruppe C (im Gegensatz zu Gruppe A) deutlich sehen.
Hoffe das weist dich irgendwo in die richtige Richtung.