Ich bin neu in der Zeitreihenanalyse und würde mich über Vorschläge freuen, wie das folgende Zeitreihen-Regressionsproblem am besten angegangen werden kann: Ich habe über drei Jahre stündliche Temperaturmessungen an ungefähr 20 Standorten an einem Standort sowie statische Zusatzinformationen (Steigung, Höhe, Aspekt, Überdachung). Der Standort ist mehrere Hektar groß, und die Temperaturerfassungsgeräte sind in Abständen von ~ 20 bis 50 m über mehrere Abschnitte verteilt. Etwa 1 km entfernt habe ich stündliche Daten von einer Wetterstation, die auch Messungen der Windgeschwindigkeit, Windrichtung, Luftfeuchtigkeit, Sonneneinstrahlung usw. liefert.
Ich möchte in der Lage sein, die Temperatur (min, max, mean) am Standort (im Allgemeinen) nur anhand der Daten von der Wetterstation vorherzusagen. Es ist semi-permanent in Betrieb, während die Temperaturschreiber am Standort nur 3 Jahre in Betrieb waren. Im Wesentlichen habe ich mehrere unabhängige Variablen (Temperatur, Luftfeuchtigkeit, Wind usw.) an einem Ort (der Wetterstation), aber eine einzige abhängige Variable (Temperatur) an mehreren Orten, von denen jeder auch mehrere zeitinvariante Attribute hat: Steigung, Höhe, Aspekt usw.
Ich bin am meisten daran interessiert, die täglichen Tiefs und Hochs am Standort im Allgemeinen vorherzusagen, anstatt die stündlichen Temperaturen an jedem Ort der Temperaturerfassung am Standort. Obwohl diese stündlichen Vorhersagen sicherlich von Wert wären.
Mein ursprünglicher Ansatz bestand darin, aus den Temperaturen am Standort tägliche Durchschnitts-, Mindest- und Höchstwerte zu berechnen und diese als abhängige Variablen in einfachen linearen Regressionen zu verwenden, wobei die an der Wetterstation verfügbaren Messungen als unabhängige Variablen verwendet wurden. Dies funktioniert recht gut (R2> 0,50 mit 2 Prädiktoren), scheint jedoch aus vielen Gründen zu simpel zu sein, und ich stelle mir vor, dass es dafür ausgefeiltere (und leistungsfähigere) Möglichkeiten geben muss.
Zum einen mache ich nichts explizites über die Zeitreihenbeschaffenheit der Tageswerte in der Regression, und obwohl die minimale oder durchschnittliche Temperatur von einem Tag zum nächsten möglicherweise nicht so korreliert ist wie von einer Stunde zur nächsten Als nächstes wundere ich mich über Probleme mit der Unabhängigkeit dieser täglichen Daten (oder sicherlich stündlich, wenn ich versuchen würde, stündliche Temperaturen vorherzusagen). Zweitens verwende ich aufgrund von Bedenken, mehrere, etwas korrelierte Temperaturmessungen über den Standort hinweg durchzuführen (sie sind untereinander viel ähnlicher als die Wetterstationsdaten), einfach den Mittelwert oder das Minimum oder das Maximum aller Messungen über den Standort im Vergleich zum direkten Einbeziehen der Daten von jedem einzelnen Messort. Dies hindert mich aber auch daran, die zeitinvarianten Zusatzinformationen von jedem Temperaturmessort (Steigung, Höhe, Aspekt, Überdachung), was vermutlich einen Großteil der Temperaturunterschiede zwischen den Standorten am Standort erklären wird. Drittens betrachte ich aufgrund der Bedenken, dass die Regression durch den sehr starken Tageszyklus der Temperaturen dominiert wird, nur Tageswerte anstelle von Stundenwerten.
Vorschläge für bessere Vorgehensweisen (insbesondere in R) oder wo Sie anfangen sollten zu suchen, sind sehr willkommen! Mir ist klar, dass es viele R-Pakete gibt, die sich mit Zeitreihen befassen, aber ich habe Probleme, den besten Ausgangspunkt für diese Art von Problem zu finden, da keines der Beispiele, die ich gesehen habe, wirklich die Situation widerspiegelt, in der ich mich befinde versuche hier zu modellieren.
Update: Wenn ich etwas mehr darüber nachdenke, ist mir nicht klar, ob Zeitreihenmodelle hier wirklich geeignet sind, da ich nicht daran interessiert bin, vorherzusagen, was zu einem bestimmten zukünftigen Zeitpunkt passieren wird. Vielmehr interessiert mich einfach, wie die Temperaturen am Standort mit den Temperaturen (und anderen Umgebungsvariablen) an der Wetterstation zusammenhängen. Ich dachte, dass eine Zeitreihenanalyse vielleicht von Wert wäre, weil ich befürchtete, dass nachfolgende Temperaturmessungen möglicherweise nicht ausreichend unabhängig sind. Die Temperatur einer Stunde hängt zwar stark von der vorherigen Stunde ab, aber die Abhängigkeit für tägliche Daten ist schwächer. Ist in beiden Fällen die Zeitkorrelation / Nichtunabhängigkeit von Zeitreihendaten ein berechtigtes Anliegen, das angegangen werden sollte, wenn man nicht an einer Zeitreihenvorhersage interessiert ist?