Was ist eine geeignete Statistik, um die räumliche Autokorrelation von Punkten mit Binärwerten zu messen?

Ich versuche, den Grad der räumlichen Autokorrelation in einem Punktdatensatz zu bestimmen. Das Attribut, an dem ich interessiert bin, ist binär (Vorhandensein / Fehlen einer Art), für das Morans I nicht geeignet ist. Andererseits sind Joint Count-Statistiken, die normalerweise für binäre oder kategoriale Daten empfohlen werden, anscheinend nicht für Punktdaten geeignet. Kurz gesagt lautet die Frage: Was ist eine geeignete Statistik zur Messung der globalen und / oder lokalen räumlichen Autokorrelation von Punkten, wenn das interessierende Attribut binär ist?

spatial-statistics

— user13706
quelle

Ihre Behauptung, dass eine Join-Counts-Statistik für Binärdaten nicht geeignet ist, ist nicht korrekt. Es ist nur eine Frage der Spezifikation der räumlichen Gewichtsmatrix (Wij). Wie bei einem Morna-I können Sie bei dieser Art der Analyse keine Distanzmatrix verwenden. Eine geeignete binäre Kontingenzmatrix kann jedoch mithilfe eines Distanzgrenzwerts berechnet werden. Sie können diese Art von räumlicher Gewichtungsmatrix erstellen und eine Join-Count-Analyse in der R spdep-Bibliothek durchführen. Siehe die Funktionen "joincount.test" und joincount.mc (für Monte-Carlo-Permutationstest).

— Jeffrey Evans
quelle

Danke, Jeffrey. Gemeinsame Zählungen sind eindeutig der richtige Weg für Binärdaten, aber ich habe einen Vorschlag gesehen (ich kann mich jetzt nicht erinnern, wo), dass gemeinsame Zählungen nur für Flächendaten (nicht für Punktdaten) geeignet waren. Mir war nicht klar, warum Sie die Gewichtsmatrix nicht mit einem Abstandsschwellenwert und einer gemeinsamen Zählung erstellen konnten, aber ich konnte in einigen flüchtigen Suchen keine Beispiele dafür finden. Gibt es eine Referenz, die Sie für diese Art der Verwendung angeben können?

— user13706

Dies ist eine umfangreiche Literatur zur Punktmusteranalyse. Die Join-Counts-Statistik wird nicht häufig verwendet und ist daher in der aktuellen Literatur nicht sehr verbreitet. Ich würde zu den frühen Arbeiten von Diggle oder Geits zurückkehren. Was ist Ihr Ziel bei der Quantifizierung der räumlichen Abhängigkeit in Binomialdaten? Sie können einen Join-Counts-Koeffizienten nicht in gemischten Effekten oder einem CAR / SAR-Modell verwenden. Hier einige interessante Hintergrundinformationen zur Skalierung von Belegungsmustern ( en.wikipedia.org/wiki/Scaling_pattern_of_occupancy )

— Jeffrey Evans

RandomForest ist ein nichtparametrisches Modell und wird als solches nicht durch Autokorrelation beeinflusst. Das Problem bei diesem Modell ist die Korrelation innerhalb des Bootstrap-Ensembles. Oft kann die Autokorrelation zu einer "Redundanz" Ihrer Daten führen, die zu einer Verzerrung des Bootstraps führt. Ich würde anhand der bedingten Verteilung (en) Ihrer Kovariaten betrachten. Ich habe R-Code "R - Plot Wahrscheinlichkeitsdichte nach Gruppierungsfaktor" hier verfügbar: conserveonline.org/workspaces/emt/documents/all.html

— Jeffrey Evans

Oh, ich würde RF nicht als Black Box verallgemeinern. Dies ist in der Tat nicht der Fall. Dieses Modell wird oft als "graue Box" bezeichnet. Da die Autokorrelation primär die IID-Annahmen in frequentistischen Methoden beeinflusst, ist es eine ziemlich sichere Behauptung, dass nichtparametrische Annahmen nicht verletzt werden.

— Jeffrey Evans

Wir verallgemeinern "nichtparametrische" Statistiken. Dies umfasst viele Methoden. Wenn Sie auf die Beweise von Brieman aus dem Jahr 2001 zurückblicken, werden Sie feststellen, dass RF keine Unabhängigkeit voraussetzt. Hasties Buch "Elemente des statistischen Lernens" bietet einen soliden statistischen Hintergrund für die Stichprobentheorie in Bezug auf Methoden des maschinellen Lernens. Wie bereits erwähnt, geht es um die Korrelation im Ensemble, die sicherlich durch Pseudoreplikation / Autokorrelation verursacht werden kann. Dies ist jedoch keine Modellannahme in RF. Wenn dies jedoch schwerwiegend genug ist, ist der Nettoeffekt von Voreingenommenheit oder Überanpassung offensichtlich der gleiche.

— Jeffrey Evans

Binärdaten sind ein normaler Anwendungsfall für die räumliche Autokorrelation. Ich denke, der größte Teil des räumlichen Analysebuchs wird darüber sprechen. Dieses Dokument kann hilfreich sein.

— mfdev
quelle

Auf der ersten Seite Ihrer Referenz wird betont, dass "Datenpositionen Regionen sind". Es sieht also so aus, als ob dies überhaupt nicht für Punktdaten gilt.

— whuber

-1

Ihre Daten können mithilfe von "Punktmusteranalyse" -Techniken analysiert werden. Insbesondere "Ripley's K" ist höchstwahrscheinlich das Beste für Sie.

Eine gute Übersicht finden Sie hier: http://www.people.vcu.edu/~dbandyop/pubh8472/RipleysK.pdf

— user67172
quelle