Warum wird die räumliche Autokorrelation durch die Aufnahme von Breiten- und Längengraden in ein GAM berücksichtigt?

60

Ich habe verallgemeinerte additive Modelle für die Entwaldung erstellt. Um die räumliche Autokorrelation zu berücksichtigen, habe ich Breitengrad und Längengrad als geglätteten Interaktionsterm (dh s (x, y)) eingeschlossen.

Ich habe dies auf das Lesen vieler Artikel gestützt, in denen die Autoren sagten, "um die räumliche Autokorrelation zu berücksichtigen, wurden Punktkoordinaten als geglättete Ausdrücke eingefügt", aber diese haben nie erklärt, warum dies tatsächlich so ist. Es ist ziemlich frustrierend. Ich habe alle Bücher gelesen, die ich über GAMs finden kann, in der Hoffnung, eine Antwort zu finden, aber die meisten (z. B. verallgemeinerte additive Modelle, eine Einführung mit R, SN Wood) berühren das Thema nur, ohne es zu erklären.

Ich würde es wirklich begrüßen, wenn jemand erklären könnte, WARUM die Einbeziehung von Breiten- und Längengraden für die räumliche Autokorrelation verantwortlich ist und was die „Berücksichtigung“ wirklich bedeutet - reicht es einfach aus, sie in das Modell aufzunehmen, oder sollten Sie ein Modell damit vergleichen s (x, y) in und ein Modell ohne? Und zeigt die durch den Begriff erklärte Abweichung das Ausmaß der räumlichen Autokorrelation an?

— gisol
quelle

Wenn es relevant ist, habe ich die ‚bam‘ Funktion aus dem ‚mgcv‘ Paket in R.

— GiSol

Außerdem habe ich die räumliche Autokorrelation mit Morans I.

— gisol

Mögliches Duplikat von Können Sie eine Spline-Funktion der Raumkoordinaten verwenden, um die räumliche Autokorrelation zu steuern?

— Makro

3

Angesichts der hier gegebenen Antworten können wir die anderen Q @ Macro-Links als Duplikat dieses Links kennzeichnen, sodass die Leute, die auf diesen Link stoßen, die Antworten hier sehen, insbesondere die von whuber.

— Gavin Simpson

+1 @GavinSimpson - Beachten Sie übrigens, dass Sie die Möglichkeit haben, enge Abstimmungen abzugeben, von denen genug dazu führen wird, dass die beiden Fragen zusammengeführt werden.

— Makro

38

Das Hauptproblem in jedem statistischen Modell sind die Annahmen, die einem Inferenzverfahren zugrunde liegen. In der Art des von Ihnen beschriebenen Modells werden die Residuen als unabhängig angenommen. Wenn sie eine räumliche Abhängigkeit haben und dies nicht im systematischen Teil des Modells modelliert ist, weisen die Residuen dieses Modells ebenfalls eine räumliche Abhängigkeit auf, oder mit anderen Worten, sie werden räumlich autokorreliert. Eine solche Abhängigkeit würde die Theorie ungültig machen, die zum Beispiel p-Werte aus Teststatistiken im GAM erzeugt; Sie können den p-Werten nicht vertrauen, da sie unter der Annahme der Unabhängigkeit berechnet wurden.

Sie haben zwei Hauptoptionen für den Umgang mit solchen Daten. i) Modellieren Sie die räumliche Abhängigkeit im systematischen Teil des Modells, oder ii) lockern Sie die Annahme der Unabhängigkeit und schätzen Sie die Korrelation zwischen Residuen.

i) wird versucht, indem eine Glättung der räumlichen Orte in das Modell aufgenommen wird. ii) erfordert die Schätzung der Korrelationsmatrix der Residuen häufig während der Modellanpassung unter Verwendung eines Verfahrens wie verallgemeinerte kleinste Quadrate. Wie gut einer dieser Ansätze mit der räumlichen Abhängigkeit umgeht, hängt von der Art und Komplexität der räumlichen Abhängigkeit ab und davon, wie einfach sie modelliert werden kann.

Zusammenfassend lässt sich sagen, dass es sich bei den Residuen eher um unabhängige Zufallsvariablen handelt, wenn Sie die räumliche Abhängigkeit zwischen Beobachtungen modellieren können und daher nicht gegen die Annahmen eines Inferenzverfahrens verstoßen.

— Gavin Simpson
quelle

Danke für deine klare Antwort Gavin. Was unterscheidet die räumliche Autokorrelation grundlegend von einem Gradienten, der nicht im Modell enthalten ist? Angenommen, Ihr Untersuchungsgebiet befand sich auf einem abfallenden Hügel, und die interessierende Art bevorzugte einen niedrigeren Lebensraum gegenüber einem höheren Lebensraum. Wird die Höhe nicht in das Modell aufgenommen, verbleibt eine Struktur in den Residuen, nicht wahr? Ist es einfach so, dass die räumliche Autokorrelation vergessen wird (oder wurde) oder nicht berücksichtigt? (PS: Vielleicht ist dies ein schlechtes Beispiel, da die Einbeziehung von lat, long auch für diesen Effekt verantwortlich wäre.)

— Gisol

4

Ja. Ich vermute, dass in den Beispielen, die Sie sich angesehen haben, entweder die räumliche Komponente von Interesse war, also explizit über eine Glättung von lat / lon modelliert wurde, oder die räumliche Komponente ein störender Begriff war, aber modelliert werden musste, um die Residuen iid If the "räumlich zu lassen msgstr "" "Die Komponente wird besser über eine andere Variable modelliert (z. B. die Höhe in Ihrem Kommentar), als eine Glättung dieser Variablen anstelle der räumlichen Positionen.

— Gavin Simpson

1

Warum geglättet? Was ist genau mit "geglättet" gemeint?

— Julian

1

@Julian Die Werte der Antwort werden in Bezug auf die 2 Raumkoordinaten geglättet. Oder anders ausgedrückt, der räumliche Effekt wird als glatte 2-D-Funktion geschätzt. Mit glatt ist eine gewisse Verwacklung gemeint, die durch die integrierte quadratische zweite Ableitung des Splines gemessen wird. Die Wackeligkeit wird gewählt, um die Passform und die Komplexität des Modells auszugleichen. Wenn Sie wissen möchten, wie die glatten Funktionen (Splines) gebildet werden, ist es möglicherweise sinnvoll, eine bestimmte Frage zu stellen.

— Gavin Simpson

55

"Räumliche Autokorrelation" bedeutet für verschiedene Menschen verschiedene Dinge. Ein übergeordnetes Konzept ist jedoch, dass ein Phänomen, das an Orten beobachtet wird, in gewisser Weise von (a) Kovariaten, (b) Orten und (c) ihren Werten an nahe gelegenen Orten abhängen kann . (Wo die technischen Definitionen in der Art der zu berücksichtigenden Daten variieren, welcher "bestimmte Weg" postuliert wird und was "in der Nähe" bedeutet: All dies muss quantitativ festgelegt werden, um fortzufahren.) $\mathbf{z}$

Betrachten wir ein einfaches Beispiel für ein solches räumliches Modell, um die Topographie einer Region zu beschreiben. Die gemessene Höhe an einem Punkt sei . Ein mögliches Modell ist, dass auf eine bestimmte mathematische Weise von den Koordinaten von abhängt , die ich in dieser zweidimensionalen Situation schreiben werde . Lassen wir (hypothetisch unabhängige) Abweichungen zwischen den Beobachtungen und dem Modell darstellen (von denen wie üblich angenommen wird, dass sie keine Erwartung haben), schreiben wir $\mathbf{z}$ $y(\mathbf{z})$ $y$ $\mathbf{z}$ $(z_1,z_2)$ $\varepsilon$

y (z) = β_{0} + β_{1} z_{1} + β_{2} z_{2} + ε (z)

$y(\mathbf{z}) = \beta_0 + \beta_1 z_1 + \beta_2 z_2 + \varepsilon(\mathbf{z})$

für ein lineares Trendmodell . Der Lineartrend (dargestellt durch die und Koeffizienten) ist ein Weg , um die Idee zu erfassen , die in die Nähe Wert und , für die Nähe von , sollen zueinander nahe sein neigen . Wir können dies sogar berechnen, indem wir den erwarteten Wert der Größe der Differenz zwischen und , berücksichtigen $\beta_1$ $\beta_2$ $y(\mathbf{z})$ $y(\mathbf{z}')$ $\mathbf{z}$ $\mathbf{z}'$ $y(\mathbf{z})$ $y(\mathbf{z}')$ . Es stellt sich heraus, dass die Mathematikvieleinfacher ist, wenn wir ein etwas anderes Differenzmaß verwenden: Stattdessen berechnen wir die erwartetequadratischeDifferenz: $E[|y(\mathbf{z}) - y(\mathbf{z}')|]$

\begin{aligned} E [{(y (z) - y (z^{'}))}^{2}] & = E [{(β_{0} + β_{1} z_{1} + β_{2} z_{2} + ε (z) - (β_{0} + β_{1} z_{1}^{'} + β_{2} z_{2}^{'} + ε (z^{'})))}^{2}] \\ = E [{(β_{1} (z_{1} - z_{1}^{'}) + β_{2} (z_{2} - z_{2})^{'} + ε (z) - ε (z^{'}))}^{2}] \\ = E [{(β_{1} (z_{1} - z_{1}^{'}) + β_{2} (z_{2} - z_{2})^{'})}^{2} \\ + 2 (β_{1} (z_{1} - z_{1}^{'}) + β_{2} (z_{2} - z_{2})^{'}) (ε (z) - ε (z^{'})) \\ + {(ε (z) - ε (z^{'}))}^{2}] \\ = {(β_{1} (z_{1} - z_{1}^{'}) + β_{2} (z_{2} - z_{2})^{'})}^{2} + E [{(ε (z) - ε (z^{'}))}^{2}] \end{aligned}

$\eqalign{ E[\left(y(\mathbf{z}) - y(\mathbf{z}')\right)^2] &= E[\left(\beta_0 + \beta_1 z_1 + \beta_2 z_2 + \varepsilon(\mathbf{z}) - \left(\beta_0 + \beta_1 z_1' + \beta_2 z_2' + \varepsilon(\mathbf{z}')\right)\right)^2] \\ &=E[\left(\beta_1 (z_1-z_1') + \beta_2 (z_2-z_2)' + \varepsilon(\mathbf{z}) - \varepsilon(\mathbf{z}')\right)^2] \\ &=E[\left(\beta_1 (z_1-z_1') + \beta_2 (z_2-z_2)'\right)^2 \\ &\quad+ 2\left(\beta_1 (z_1-z_1') + \beta_2 (z_2-z_2)'\right)\left(\varepsilon(\mathbf{z}) - \varepsilon(\mathbf{z}')\right)\\ &\quad+ \left(\varepsilon(\mathbf{z}) - \varepsilon(\mathbf{z}')\right)^2] \\ &=\left(\beta_1 (z_1-z_1') + \beta_2 (z_2-z_2)'\right)^2 + E[\left(\varepsilon(\mathbf{z}) - \varepsilon(\mathbf{z}')\right)^2] }$

Dieses Modell ist frei von jeglicher expliziten räumlichen Autokorrelation, da es keinen Term gibt, der direkt mit nahegelegenen Werten . $y(\mathbf{z})$ $y(\mathbf{z}')$

Ein alternatives, anderes Modell ignoriert den linearen Trend und geht nur von einer Autokorrelation aus. Ein Weg, dies zu tun, besteht in der Struktur der Abweichungen . Das könnten wir annehmen $\varepsilon(\mathbf{z})$

y (z) = β_{0} + ε (z)

$y(\mathbf{z}) = \beta_0 + \varepsilon(\mathbf{z})$

und um unsere Erwartung der Korrelation zu berücksichtigen, nehmen wir eine Art "Kovarianzstruktur" für . Damit dies räumlich aussagekräftig ist, nehmen wir an, dass die Kovarianz zwischen und gleich da Mittelwert von Null hat und mit abnimmt und werden immer weiter entfernt. Da die Details keine Rolle spielen, nennen wir diese Kovarianz einfach $\varepsilon$ $\varepsilon(\mathbf{z})$ $\varepsilon(\mathbf{z}')$ $E[\varepsilon(\mathbf{z})\varepsilon(\mathbf{z}')]$ $\varepsilon$ $\mathbf{z}$ $\mathbf{z}'$ . Dies ist eine räumliche Autokorrelation. Tatsächlich ist die (übliche Pearson) Korrelation zwischen und ist $C(\mathbf{z}, \mathbf{z}')$ $y(\mathbf{z})$ $y(\mathbf{z}')$

ρ (y (z), y (z^{'})) = \frac{C (z, z^{'})}{\sqrt{C (z, z) C (z^{'}, z^{'})}} .

$\rho(y(\mathbf{z}), y(\mathbf{z}')) = \frac{C(\mathbf{z}, \mathbf{z}')}{\sqrt{C(\mathbf{z}, \mathbf{z})C(\mathbf{z}', \mathbf{z}')}}.$

$y$

\begin{aligned} E [{(y (z) - y (z^{'}))}^{2}] & = {(β_{1} (z_{1} - z_{1}^{'}) + β_{2} (z_{2} - z_{2})^{'})}^{2} + E [{(ε (z) - ε (z^{'}))}^{2}] \\ = {(β_{1} (z_{1} - z_{1}^{'}) + β_{2} (z_{2} - z_{2})^{'})}^{2} + C_{1} (z, z) + C_{1} (z^{'}, z^{'}) \end{aligned}

$\eqalign{ E[\left(y(\mathbf{z}) - y(\mathbf{z}')\right)^2] &= \left(\beta_1 (z_1-z_1') + \beta_2 (z_2-z_2)'\right)^2 + E[\left(\varepsilon(\mathbf{z}) - \varepsilon(\mathbf{z}')\right)^2] \\ &=\left(\beta_1 (z_1-z_1') + \beta_2 (z_2-z_2)'\right)^2 + C_1(\mathbf{z}, \mathbf{z}) + C_1(\mathbf{z}', \mathbf{z}') }$

$\mathbf{z} \ne \mathbf{z}'$ $\varepsilon$ $C_1$ $C$

$\varepsilon$ $y$ $\mathbf{z}$ $\mathbf{z}'$ $\beta_0$ $\beta_1$

$y$

\begin{aligned} E [{(y (z) - y (z^{'}))}^{2}] & = E [{(β_{0} + ε (z) - (β_{0} + ε (z^{'})))}^{2}] \\ = E [{(ε (z) - ε (z^{'}))}^{2}] \\ = E [ε (z)^{2} - 2 ε (z) ε (z^{'}) + ε (z^{'})^{2}] \\ = C_{2} (z, z) - 2 C_{2} (z, z^{'}) + C_{2} (z^{'}, z^{'}) . \end{aligned}

$\eqalign{ E[\left(y(\mathbf{z}) - y(\mathbf{z}')\right)^2] &= E[\left(\beta_0 + \varepsilon(\mathbf{z}) - \left(\beta_0 + \varepsilon(\mathbf{z}')\right)\right)^2] \\ &=E[\left(\varepsilon(\mathbf{z}) - \varepsilon(\mathbf{z}')\right)^2] \\ &=E[\varepsilon(\mathbf{z})^2 - 2 \varepsilon(\mathbf{z})\varepsilon(\mathbf{z}') + \varepsilon(\mathbf{z}')^2] \\ &=C_2(\mathbf{z}, \mathbf{z}) - 2C_2(\mathbf{z}, \mathbf{z}') + C_2(\mathbf{z}', \mathbf{z}'). }$

$C_2(\mathbf{z}, \mathbf{z}')$ $\mathbf{z}$ $\mathbf{z}'$ $y$

Vergleich der beiden Ausdrücke für $E[\left(y(\mathbf{z}) - y(\mathbf{z}')\right)^2]$ $\left(\beta_1 (z_1-z_1') + \beta_2 (z_2-z_2)'\right)^2$ $-2C_2(\mathbf{z}, \mathbf{z}')$ $C_i(\mathbf{z}, \mathbf{z})$

$\varepsilon$ ). In der Praxis beinhalten Modelle beide Methoden. Welche Sie wählen, hängt davon ab, was Sie mit dem Modell erreichen möchten und wie sich die räumliche Autokorrelation entwickelt - ob sie durch zugrunde liegende Trends impliziert wird oder Variationen widerspiegelt, die Sie als zufällig betrachten möchten. Keines ist immer richtig, und bei einem bestimmten Problem ist es häufig möglich, beide Arten von Modellen zu verwenden, um die Daten zu analysieren, das Phänomen zu verstehen und ihre Werte an anderen Stellen vorherzusagen (Interpolation).

— whuber
quelle

2

+1 - es ist schön, die Verbindung zwischen zwei Ansätzen zum Umgang mit räumlicher Abhängigkeit zu sehen. Großartige Antwort, whuber!

— Makro

Sehr umfangreich, danke. Ich werde ein paar Momente brauchen, um alles durchzudenken.

— Gisol

6

Wenn alle statistischen Schriften von diesem Typ wären, gäbe es viel klarer denkende angewandte statistische Arbeiten in der Welt. Schön gemacht.

— Ari B. Friedman

Verstehe ich diese Antwort richtig, wenn ich davon ausgehe, dass das Hinzufügen von X / Y-Koordinaten als unabhängige Variablen zu einem (?!) Modell zu einem gewissen Grad die räumliche Autokorrelation erklärt?

— Julian

1

@ Julian: Wir reden über die Konstruktion verschiedener Modelle für die gleichen Daten. Wenn Sie X- und Y-Koordinaten als erklärende Variablen einschließen, aber ansonsten keine räumliche Korrelation berücksichtigen, ist "räumliche Korrelation" für dieses Modell nicht sinnvoll. Wir müssen also vorsichtig sein, was wir mit "räumliche Korrelation berücksichtigen" meinen. Wenn wir jedoch Ihre Frage verstehen, ob das Einbeziehen der Koordinaten als erklärende Variablen genauso effektiv sein kann wie die Konstruktion eines Modells, in dem die räumliche Korrelation explizit dargestellt wird, lautet meine Antwort "Ja, oft ist das der Fall".

— whuber

0

Die anderen Antworten sind gut. Ich wollte nur etwas über die räumliche Autokorrelation hinzufügen. Manchmal wird diese Behauptung stärker in Anlehnung an "die Berücksichtigung der räumlichen Autokorrelation, die nicht durch die Kovariaten erklärt wird" aufgestellt.

Dies kann ein irreführendes Bild dessen vermitteln, was die räumliche Glättung bewirkt. Es ist nicht so, als gäbe es eine geordnete Warteschlange, in der der Smooth geduldig darauf wartet, dass die Kovariaten zuerst verschwinden, und Smooth dann die „ungeklärten“ Teile aufwischt. In Wirklichkeit haben alle die Möglichkeit, die Daten zu erklären.

Dieses Papier mit einem treffend benannten Titel stellt das Thema wirklich klar dar, obwohl aus Sicht eines CAR-Modells die Prinzipien für GAM-Smooths gelten.

Das Hinzufügen von räumlich korrelierten Fehlern kann den von Ihnen geliebten festen Effekt durcheinander bringen

Die "Lösung" im Papier besteht darin, die Reste zu glätten, anstatt den Raum zu glätten. Das würde dazu führen, dass Ihre Kovariaten erklären, was sie können. Natürlich gibt es viele Anwendungen, bei denen dies keine wünschenswerte Lösung wäre.

— ASeaton
quelle

-2

Die räumliche Korrelation besteht einfach darin, wie sich die x- und y-Koordinaten auf die Größe der resultierenden Oberfläche im Raum beziehen. Die Autokorrelation zwischen den Koordinaten kann also als funktionale Beziehung zwischen den benachbarten Punkten ausgedrückt werden.

— Michael Chernick
quelle

1

Hallo Michael, danke für die Antwort. Ich glaube, ich verstehe, was Sie gesagt haben, aber es scheint eher eine Beschreibung der räumlichen Autokorrelation zu sein, als wie die Koordinateneinbeziehung dies erklärt - ich vermisse jedoch möglicherweise Ihren Punkt. Angenommen, ich habe zwei Modelle, das erste (A) mit einem einzigen Begriff - Abholzung in Abhängigkeit von der Entfernung zu einer Hauptstadt und das zweite (B) mit der Entfernung zum Hauptstadtbegriff, aber auch mit dem Lat und Long Begriff. Würde es Ihnen etwas ausmachen, Ihre Antwort in diesem Zusammenhang zu wiederholen? Vielleicht könnte ich es besser verstehen.

— Gisol

1

Ich denke, wenn es keinen Interaktionsterm im Modell gibt, ist die räumliche Autokorrelation zwischen benachbarten Punkten 0. Wenn Sie einen Iterationsterm haben, bestimmt dieser Term den Wert der räumlichen Autokorrelationen.

— Michael Chernick

4

@Michael, räumliche Autokorrelation bedeutet, dass die Korrelation zwischen Punkten von ihren räumlichen Positionen abhängt. Ich denke, diese Antwort wäre nützlicher, wenn Sie erklären könnten, warum die Verwendung einer glatten Funktionsschätzung mit den räumlichen Standorten als Eingaben dies erklärt. Oberflächlich betrachtet scheint der Ansatz der glatten Funktion den Mittelwert zu modellieren , während sich die räumliche Autokorrelation auf die Kovarianzstruktur bezieht . Ich weiß, dass es eine Beziehung zwischen der Kovarianzfunktion eines reibungslosen Prozesses und der Abschätzung der reibungslosen Funktion gibt, aber ohne diese Verbindung scheint diese Antwort unvollständig zu sein.

— Makro

1

@ Michael, sicher können Sie sehen , dass die Bereitstellung lat / long Koordinaten beeinflussen der Mittelwert aus der Modellierung der Zusammenhänge zwischen zwei Punkten im Raum anders ... Die OP fragte , wie zu modellieren räumliche Autokorrelation und ich denke , ein Teil des Arguments - der Teil, erklärt genau, wie die Anpassung einer glatten räumlichen Oberfläche (wie es ein verallgemeinertes additives Modell in den Koordinaten tun würde) die räumliche Autokorrelation modelliert. Es gibt eine Beziehung zwischen Gams- und Kovarianzfunktionen (ich weiß nicht genug, um genauer zu sein), aber es scheint hier erforderlich zu sein, diese Beziehung anzusprechen.

— Makro

1

@Marco Ich würde mir Simon Woods Buch ansehen, wenn du kannst, da es die Details enthält und die relevante Literatur zu den Smooths als Zufallseffektbit zitiert.

— Gavin Simpson