Ich habe Daten für ein Netzwerk von Wetterstationen in den USA. Dies gibt mir einen Datenrahmen, der Datum, Breite, Länge und einige Messwerte enthält. Angenommen, die Daten werden einmal pro Tag erfasst und sind abhängig vom regionalen Wetter (nein, wir werden nicht auf diese Diskussion eingehen).
Ich möchte grafisch zeigen, wie zeitlich und räumlich gleichzeitig gemessene Werte korrelieren. Mein Ziel ist es, die regionale Homogenität (oder das Fehlen derselben) des untersuchten Wertes aufzuzeigen.
Datensatz
Zunächst nahm ich eine Gruppe von Stationen in der Region Massachusetts und Maine. Ich habe Websites nach Breiten- und Längengrad aus einer Indexdatei ausgewählt, die auf der FTP-Site von NOAA verfügbar ist.
Auf Anhieb sehen Sie ein Problem: Es gibt viele Websites, die ähnliche Bezeichner aufweisen oder sehr nahe beieinander liegen. FWIW, ich identifiziere sie mit den USAF- und WBAN-Codes. Bei genauerem Hinsehen der Metadaten stellte ich fest, dass sie unterschiedliche Koordinaten und Höhen haben und die Daten an einer Stelle anhalten und dann an einer anderen beginnen. Da ich es nicht besser weiß, muss ich sie als separate Stationen behandeln. Dies bedeutet, dass die Daten Paare von Stationen enthalten, die sehr nahe beieinander liegen.
Voruntersuchung
Ich habe versucht, die Daten nach Kalendermonaten zu gruppieren und dann die gewöhnliche Regression der kleinsten Quadrate zwischen verschiedenen Datenpaaren zu berechnen. Ich zeichne dann die Korrelation zwischen allen Paaren als eine Linie, die die Stationen verbindet (unten). Die Linienfarbe zeigt den Wert von R2 aus der OLS-Anpassung. Die Abbildung zeigt dann, wie die über 30 Datenpunkte von Januar, Februar usw. zwischen verschiedenen Stationen im interessierenden Bereich korreliert sind.
Ich habe die zugrunde liegenden Codes so geschrieben, dass der Tagesmittelwert nur berechnet wird, wenn alle 6 Stunden Datenpunkte vorliegen. Daher sollten die Daten standortübergreifend vergleichbar sein.
Probleme
Leider gibt es einfach zu viele Daten, um auf einem Plot einen Sinn zu ergeben. Dies kann nicht durch Verringern der Zeilengröße behoben werden.
Das Netzwerk scheint zu komplex zu sein, daher denke ich, dass ich einen Weg finden muss, um die Komplexität zu reduzieren, oder eine Art räumlichen Kernel anzuwenden.
Ich bin mir auch nicht sicher, welche Metrik am besten geeignet ist, um die Korrelation darzustellen, aber für das beabsichtigte (nicht technische) Publikum ist der Korrelationskoeffizient von OLS möglicherweise am einfachsten zu erklären. Möglicherweise muss ich auch andere Informationen wie den Gradienten oder den Standardfehler angeben.
Fragen
Ich lerne mich gleichzeitig in dieses Feld und in R ein und würde mich über Vorschläge freuen zu:
- Was ist der formalere Name für das, was ich versuche zu tun? Gibt es einige hilfreiche Begriffe, mit denen ich mehr Literatur finden könnte? Meine Suche ist das Zeichnen von Leerzeichen für eine übliche Anwendung.
- Gibt es geeignetere Methoden, um die Korrelation zwischen mehreren im Raum getrennten Datensätzen darzustellen?
- ... insbesondere Methoden, die sich visuell leicht darstellen lassen?
- Sind einige davon in R implementiert?
- Bietet sich einer dieser Ansätze für die Automatisierung an?