Erstellen einer Zeitreihe, die mehrere Beobachtungen für jedes Datum enthält

11

Ich versuche, eine Zeitreihe auf vierteljährliche Stichprobendaten (tierische Biomasse) über einen Zeitraum von 10 Jahren mit 3 Wiederholungen pro Quartal anzuwenden. Also 40 Daten, aber insgesamt 120 Beobachtungen.

Ich habe SARIMA'a in Shumway und Stoffers Zeitreihenanalyse und ihren Anwendungen gelesen und Woodward et al. Die angewandte Zeitreihenanalyse von al., und nach meinem Verständnis basiert jedes Modell auf einer einzelnen Beobachtung zu jedem Zeitpunkt in der Zeitreihe.

FRAGE: Wie kann ich die Variation in jeder Beobachtung in mein Modell aufnehmen? Ich könnte eine Reihe auf dem Mittelwert aufbauen, aber ich würde die Variation bei jeder Beobachtung verlieren und ich denke, das ist entscheidend für mein Verständnis dessen, was passiert.

r time-series

SARIMA kann auf multivariate Fälle ausgedehnt werden, was für Sie möglicherweise angemessen ist. Das Schlüsselwort in diesem Fall ist VAR. Dies bedeutet, dass Sie für jeden Zeitraum einen Zahlenvektor anstelle einer Zahl beobachten.

— mpiktas

4

Je nachdem, was genau Sie unter "3 Wiederholungen pro Quartal" verstehen, kann ein Panel-Datenmodell ( Wikipedia ) sinnvoll sein. Dies würde bedeuten, dass Sie drei Messungen pro Quartal durchführen, eine aus drei verschiedenen Quellen, die über die Zeit gleich bleiben. Ihre Daten würden ungefähr so aussehen:

obs quarter value
  A       1   2.2 
  A       2   2.3 
  A       3   2.4 
  B       1   1.8 
  B       2   1.7 
  B       3   1.6 
  C       1   3.3 
  C       2   3.4 
  C       3   3.5

Wenn Sie sich das ansehen, gibt es eine Reihe von Modellen für die Arbeit mit Paneldaten. Hier ist eine anständige Präsentation , die einige der grundlegenden R abdeckt, die Sie zum Anzeigen von Paneldaten verwenden würden. Dieses Dokument geht etwas tiefer, wenn auch aus ökonometrischer Sicht.

Wenn Ihre Daten jedoch nicht ganz mit den Panel-Datenmethoden übereinstimmen, stehen andere Tools für "gepoolte Daten" zur Verfügung. Eine Definition aus diesem Artikel (pdf) :

Das Zusammenführen von Daten bedeutet eine statistische Analyse unter Verwendung mehrerer Datenquellen, die sich auf mehrere Populationen beziehen. Es umfasst Mittelung, Vergleiche und gemeinsame Interpretationen der Informationen. Je nachdem, ob die beteiligten Datenquellen und Populationen gleich / ähnlich oder unterschiedlich sind, treten auch unterschiedliche Szenarien und Probleme auf.

Wie Sie anhand dieser Definition sehen können, hängen die Techniken, die Sie verwenden werden, davon ab, was genau Sie aus Ihren Daten lernen möchten.

Wenn ich Ihnen einen Startplatz vorschlagen würde, unter der Annahme, dass Ihre drei Ziehungen für jedes Quartal im Zeitverlauf konsistent sind, würde ich sagen, beginnen Sie mit a Schätzer für feste Effekte (auch als Innenschätzer bezeichnet) mit einem Paneldatenmodell von Ihnen verwenden Daten.

In meinem obigen Beispiel würde der Code ungefähr so aussehen:

> Panel = data.frame(value=c(2.2,2.3,2.4,1.8,1.7,1.9,3.3,3.4,3.5), 
                     quarter=c(1,2,3,1,2,3,1,2,3), 
                     obs=c("A","A","A","B","B","B","C","C","C"))
> fixed.dum <-lm(value ~ quarter + factor(obs), data=Panel)
> summary(fixed.dum)

Welches gibt uns die folgende Ausgabe:

Call:
lm(formula = value ~ quarter + factor(obs), data = Panel)

Residuals:
         1          2          3          4          5          6          7 
-1.667e-02 -8.940e-17  1.667e-02  8.333e-02 -1.000e-01  1.667e-02 -1.667e-02 
         8          9 
 1.162e-16  1.667e-02 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.13333    0.06055  35.231 3.47e-07 ***
quarter       0.08333    0.02472   3.371 0.019868 *  
factor(obs)B -0.50000    0.04944 -10.113 0.000162 ***
factor(obs)C  1.10000    0.04944  22.249 3.41e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 0.06055 on 5 degrees of freedom
Multiple R-squared: 0.9955, Adjusted R-squared: 0.9928 
F-statistic: 369.2 on 3 and 5 DF,  p-value: 2.753e-06

Hier können wir die Auswirkung der Zeit im Koeffizienten auf die Viertelvariable sowie die Auswirkung der Zugehörigkeit zu Gruppe B oder Gruppe C (im Gegensatz zu Gruppe A) deutlich sehen.

Hoffe das weist dich irgendwo in die richtige Richtung.

— Wilduck
quelle

3

Ich finde das interessant. Mein Vorschlag wäre, die drei Datenpunkte zu mitteln, um eine reibungslose Anpassung der Zeitreihen zu erhalten. Wenn Sie dies tun und dabei ignorieren, dass Sie durchschnittlich drei Beobachtungen gemacht haben, werfen Sie Informationen weg. Für jeden Zeitpunkt können Sie jedoch die quadratischen Abweichungen vom Mittelwert summieren. Poolen Sie diese Quadratsummen über alle Zeiträume und dividieren Sie durch n-1, wobei n die Gesamtzahl der für die Berechnung verwendeten Punkte ist. Wenn Sie ein Modell mit Zeitreihenstruktur haben (z. B. Trends, saisonale Komponente, AR-Abhängigkeitsstruktur), kann diese Berechnung eine unabhängige und unvoreingenommene Schätzung der Varianz des Fehlerterms im Modell sein.

— Michael R. Chernick
quelle

1

+1 für eine nützliche Idee, die leicht auszuführen und theoretisch gültig ist. Eine kleine Korrektur: Es wird geben

3 n

$3n$ Werte beobachtet über

n

$n$ Zeit Abschnitte. Eine unvoreingenommene Schätzung der Varianz teilt die Summe aller

3 n

$3n$ quadratische Abweichungen von

2 n

$2n$ , eher, als

n - 1

$n-1$ oder

3 n - 1

$3n-1$ (beides ist wesentlich anders und falsch). Man sollte wahrscheinlich auch die einzelnen Varianzschätzungen (eine pro Zeitraum) über die Zeit zeichnen, um zu bewerten, ob es legitim ist, sie alle so zusammenzufassen.

— whuber