Was verursacht ein U-förmiges Muster im räumlichen Korrelogramm?

Ich habe in meiner eigenen Arbeit dieses Muster bemerkt, als ich ein räumliches Korrelogramm in unterschiedlichen Abständen untersuchte und ein U-förmiges Muster in den Korrelationen auftauchte. Insbesondere nehmen starke positive Korrelationen in kleinen Entfernungsbehältern mit der Entfernung ab, erreichen dann eine Grube an einem bestimmten Punkt und klettern dann wieder nach oben.

Hier ist ein Beispiel aus dem Blog Conservation Ecology, Macroecology Playground (3) - Spatial Autocorrelation .

Morans I-Korrelogramm

Diese stärkeren positiven Autokorrelationen bei größeren Entfernungen verstoßen theoretisch gegen Toblers erstes Gesetz der Geographie, daher würde ich erwarten, dass es durch ein anderes Muster in den Daten verursacht wird. Ich würde erwarten, dass sie in einer bestimmten Entfernung Null erreichen und dann in weiteren Entfernungen um 0 schweben (was normalerweise in Zeitreihendiagrammen mit AR- oder MA-Termen niedriger Ordnung der Fall ist).

Wenn Sie eine tun Google - Bildsuche Sie ein paar weiteren Beispiele für diese gleiche Art von Muster finden (siehe hier für ein anderes Beispiel). Ein Benutzer auf der GIS-Site hat zwei Beispiele veröffentlicht, in denen das Muster für Morans I, jedoch nicht für Gearys C ( 1 , 2 ) angezeigt wird . In Verbindung mit meiner eigenen Arbeit sind diese Muster für die Originaldaten beobachtbar, aber wenn ein Modell mit räumlichen Begriffen angepasst und die Residuen überprüft werden, scheinen sie nicht zu bestehen.

Ich habe in der Zeitreihenanalyse keine Beispiele gefunden, die ein ähnlich aussehendes ACF-Diagramm anzeigen. Daher bin ich mir nicht sicher, welches Muster in den Originaldaten dies verursachen würde. Scortchi in diesem Kommentar spekuliert, dass ein sinusförmiges Muster durch ein ausgelassenes saisonales Muster in dieser Zeitreihe verursacht werden kann. Könnte dieselbe Art von räumlichem Trend dieses Muster in einem räumlichen Korrelogramm verursachen? Oder ist es ein anderes Artefakt der Art und Weise, wie die Korrelationen berechnet werden?

Hier ist ein Beispiel aus meiner Arbeit. Die Stichprobe ist ziemlich groß, und die hellgrauen Linien sind ein Satz von 19 Permutationen der Originaldaten, um eine Referenzverteilung zu erzeugen (so dass man sehen kann, dass die Varianz in der roten Linie ziemlich gering sein dürfte). Obwohl die Handlung nicht ganz so dramatisch ist wie die erste, erscheint die Grube und der Anstieg in weiteren Entfernungen ziemlich leicht in der Handlung. (Beachten Sie auch, dass die Grube in meiner nicht negativ ist, wie auch die anderen Beispiele, wenn dies die Beispiele wesentlich unterscheidet, die ich nicht kenne.)

Geben Sie hier die Bildbeschreibung ein

Hier ist eine Kernel-Dichtekarte der Daten, um die räumliche Verteilung zu sehen, die das Korrelogramm erzeugt hat.

KDE-Verbrechen in DC

autocorrelation spatial

— Andy W.
quelle

I

$I$

Ich kann sehen, woher das kommt, @ user777, obwohl ich ein ähnliches Argument erwarten könnte, das dazu führen würde, dass der Plot auf 0 tendiert, da die räumliche Nachbarschaft asymptotisch größer wird. Das heißt, wenn die Nachbarschaft größer wird, wird der Nachbarschaftsmittelwert näher am großen Mittelwert liegen. In meinem Kopf (glaube ich) würde die Korrelation gegen Null gehen, nicht gegen Eins, aber ich könnte mich leicht irren. (Das gleiche Argument sollte auch für Zeitreihen gelten, und ich kann mich nicht erinnern, ACF-Diagramme für Zeitreihen gesehen zu haben, die so aussehen.)

— Andy W

Das Kde von DC erinnert mich ein bisschen an ein Schachbrett. Wie würde die räumliche Autokorrelationsdarstellung von einem Schachbrett aussehen? Ich frage mich, ob es nicht aus nächster Nähe hoch wäre (gleiches Quadrat), etwas weiter draußen niedrig (anderes Quadrat) und dann wieder höher. Ich weiß nicht genug über dieses Thema, um zu wissen, ob das die Antwort ist.

— Gung - Reinstate Monica

@gung, es hängt davon ab, wie Sie in diesem Fall die Entfernung formulieren. Für ein Schachbrett mit Königin-Kontiguität wäre dies gleichbedeutend mit einem negativen auto-regressiven Term, der für eine Zeitreihe dazu führen würde, dass ein ACF-Diagramm eine Alternative zwischen positiven und negativen Korrelationen darstellt (und die Welle würde sich dämpfen, wahrscheinlich sehr schnell in diesem Fall ). In der räumlichen Analyse ist dies jedoch komplizierter als in Zeitreihen. Ich würde dieses Muster jedoch nicht als Schachbrettmuster charakterisieren.

— Andy W

Ihr Datensatz hat wirklich nicht genügend räumliche Abdeckung, sodass Sie Autokovarianzen in einer Entfernung von 5 Kilometern schätzen sollten (das gesamte Gebiet hat einen Durchmesser von nicht mehr als 10 Kilometern und Sie möchten im Allgemeinen einen Datensatz haben, der ein Vielfaches der Fläche abdeckt Korrelationslänge.) Es scheint mir, dass Sie im Grunde drei "Blobs" mit hoher Kriminalität in ungefähr dreieckiger Form haben, wobei die Blobs etwa 5K voneinander entfernt sind und dazwischen Lücken bestehen. Daher ist es nicht überraschend, eine positive Korrelation bei dieser Länge zu sehen.

— Brian Borchers

Erläuterung

Ein U-förmiges Korrelogramm tritt häufig auf, wenn seine Berechnung über die gesamte Ausdehnung des Bereichs durchgeführt wird, in dem ein Phänomen auftritt. Es zeigt sich insbesondere bei fahnenartigen Phänomenen in der Natur, wie lokaler Kontamination in Böden oder Grundwasser oder, wie in diesem Fall, wenn das Phänomen mit einer Bevölkerungsdichte verbunden ist, die im Allgemeinen zur Grenze des Untersuchungsgebiets hin abnimmt (Distrikt Columbia, das einen städtischen Kern mit hoher Dichte hat und von Vororten mit niedrigerer Dichte umgeben ist).

Denken Sie daran, dass das Korrelogramm den Ähnlichkeitsgrad aller Daten nach ihrem Ausmaß an räumlicher Trennung zusammenfasst. Höhere Werte sind ähnlicher, niedrigere Werte weniger ähnlich. Die einzigen Punktepaare, an denen die größte räumliche Trennung erreicht werden kann, sind diejenigen, die an diametral gegenüberliegenden Seiten der Karte liegen. Das Korrelogramm vergleicht daher Werte entlang der Grenze miteinander. Wenn Datenwerte insgesamt zur Grenze hin abnehmen, kann das Korrelogramm nur kleine Werte mit kleinen Werten vergleichen. Es wird wahrscheinlich feststellen, dass sie sehr ähnlich sind.

Für jedes fahnenartige oder andere räumlich unimodale Phänomen können wir daher vor dem Sammeln der Daten vorhersehen, dass das Korrelogramm wahrscheinlich abnimmt, bis etwa der halbe Durchmesser des Bereichs erreicht ist, und dann beginnt es zuzunehmen.

Ein sekundärer Effekt: Schätzungsvariabilität

Ein sekundärer Effekt besteht darin, dass mehr Datenpunktpaare verfügbar sind, um das Korrelogramm bei kurzen Entfernungen als bei größeren Entfernungen abzuschätzen. Bei mittleren bis langen Entfernungen nehmen die "Verzögerungspopulationen" solcher Punktpaare ab. Dies erhöht die Variabilität des empirischen Korrelogramms. Manchmal führt diese Variabilität allein zu ungewöhnlichen Mustern im Korrelogramm. Offensichtlich wurde in der oberen Abbildung ("Morans I") ein großer Datensatz verwendet, der diesen Effekt verringert. Die Zunahme der Variabilität zeigt sich jedoch in den größeren Amplituden lokaler Schwankungen in der Darstellung in Entfernungen über etwa 3500: genau der Hälfte maximale Entfernung.

Eine langjährige Faustregel in der räumlichen Statistik besteht daher darin, die Berechnung des Korrelogramms bei Entfernungen zu vermeiden, die größer als der halbe Durchmesser des Untersuchungsgebiets sind, und zu vermeiden, dass so große Entfernungen für die Vorhersage verwendet werden (z. B. Interpolation).

Warum räumliche Periodizität nicht die vollständige Antwort ist

In der Literatur zur räumlichen Statistik wird in der Tat darauf hingewiesen, dass räumlich periodische Muster bei größeren Entfernungen zu einem Rückprall des Korrelogramms führen können. Die Bergbaugeologen nennen dies den "Locheffekt". Es gibt eine Klasse von Variogrammen, die einen sinusförmigen Term enthalten, um ihn zu modellieren. Diese Variogramme führen jedoch auch zu einem starken Abfall mit der Entfernung und können daher die in der ersten Abbildung gezeigte extreme Rückkehr zur vollständigen Korrelation nicht erklären. Darüber hinaus ist es in zwei oder mehr Dimensionen unmöglich, dass ein Phänomen sowohl isotrop (in dem die Richtungskorrelogramme alle gleich sind) als auch periodisch ist. Daher berücksichtigt die Periodizität der Daten allein nicht das, was angezeigt wird.

Was kann getan werden?

Der richtige Weg, um unter solchen Umständen vorzugehen, besteht darin, zu akzeptieren, dass das Phänomen nicht stationär ist, und ein Modell zu übernehmen, das es anhand einer zugrunde liegenden deterministischen Form - einer "Drift" oder eines "Trends" - mit zusätzlichen Schwankungen um diese Drift herum beschreibt die räumliche (und zeitliche) Autokorrelation haben können. Ein anderer Ansatz für Daten wie die Anzahl der Straftaten besteht darin, eine andere verwandte Variable zu untersuchen, z. B. die Kriminalität pro Bevölkerungseinheit.

— whuber
quelle

Vielen Dank, denken Sie, dass eine Ad-hoc-Gewichtung für Randeffekte erforderlich ist? (Das kann für die explorative Analyse von Modellresten übertrieben sein.) In meiner Dissertation verwende ich tatsächlich nichtlineare räumliche Drift- und Trendbegriffe - Kriminalität pro Bevölkerungseinheit ist aus mehreren Gründen ärgerlich. Die Wohnbevölkerung ist nicht wirklich die Basis des Interesses - es ist eher wie das Herumlaufen der Bevölkerung. In Innenstädten kann dies zu bestimmten Zeiten um das 20- bis 30-fache anschwellen und ist eher mit Einrichtungen außerhalb des Wohnbereichs (Arbeit und Unterhaltung) verbunden.

— Andy W

Sie haben viele Möglichkeiten, Andy, weil es keine Möglichkeit gibt, ein eindeutiges Modell zu identifizieren: Sie müssen entscheiden, wo Sie die Modellierung der Werte in Bezug auf eine räumliche Drift beenden und mit der Modellierung (oder besser gesagt ihrer Residuen) beginnen möchten ein stochastisches räumliches Modell. Das U-förmige Korrelogramm kann als starker Hinweis darauf verstanden werden, dass ein Mechanismus zur Modellierung der Drift erforderlich ist. Die Normalisierung durch eine relevante Population (auch wenn sie nur grob geschätzt werden kann) ist eine Methode, die Ihnen zur Verfügung steht. Das Einbeziehen von Messungen der Bevölkerung (oder Nutzung usw.) als Kovariaten ist eine andere.

— whuber

Ich bin mit nur einer Vielzahl von Maßnahmen zur Messung der Landnutzung (Bars, Tankstellen, Krankenhäuser, Schulen usw.) und den räumlichen Begriffen nahe gekommen. Hier ist die Karte der Vorhersagen, die diese anderen Kovariaten konstant halten . Es gibt jedoch immer noch ein kleines bisschen verbleibende Autokorrelation. Ich bin angesichts des Fehlers skeptisch, wie viel dasymetrische Mapping der Bevölkerung auf kleine Orte helfen wird, aber ich kann mir vorstellen, dass ich diese Analyse irgendwann durchführen werde.

— Andy W

Dies ist ein prinzipieller Ansatz: Lassen Sie die Theorie die Entwicklung der Driftkomponente des Modells leiten und bewerten Sie dann die Residuen, um zu entscheiden, ob es sich lohnt, ihre räumliche Autokorrelation zu modellieren. In vielen Fällen werden die meisten offensichtlichen räumlichen Beziehungen angemessen durch Driftterme erklärt, und es ist selten, dass die vollständige geostatistische Maschinerie benötigt wird. Ein faszinierender Aspekt Ihres Problems ist, dass die zugrunde liegende Metrik (räumliche Entfernung) möglicherweise eher die Reisezeit oder die Reisestrecke entlang des Straßennetzes als die euklidische Entfernung sein sollte.

— whuber