Wie finde ich Beziehungen zwischen verschiedenen Arten von Ereignissen (definiert durch ihre 2D-Position)?

Ich habe einen Datensatz mit Ereignissen, die im selben Zeitraum aufgetreten sind. Jedes Ereignis hat einen Typ (es gibt nur wenige verschiedene Typen, weniger als zehn) und einen Ort, der als 2D-Punkt dargestellt wird.

Ich möchte prüfen, ob eine Korrelation zwischen Ereignistypen oder zwischen Typ und Ort besteht. Beispielsweise treten Ereignisse vom Typ A normalerweise nicht dort auf, wo Ereignisse vom Typ B auftreten. Oder vielleicht gibt es in einigen Gebieten meistens Ereignisse vom Typ C.

Welche Tools könnte ich verwenden, um dies durchzuführen? Als Anfänger in der statistischen Analyse bestand meine erste Idee darin, eine Art PCA (Principal Component Analysis) für diesen Datensatz zu verwenden, um festzustellen, ob jeder Ereignistyp eine eigene Komponente hat oder ob einige dieselbe gemeinsam haben (dh korreliert sind).

Ich muss erwähnen, dass mein Datensatz in der Größenordnung von 500'000 Punkten , was die Handhabung etwas erschwert . $(x, y, type)$

BEARBEITEN: Wie in den Antworten unten und in den Kommentaren angegeben, müssen Sie dies als markierten Punktprozess modellieren und dann mit R das gesamte Schwerheben ausführen, wie in diesem Workshop-Bericht ausführlich erläutert: http: / /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html

— Wookai
quelle

Handelt es sich um ein Raster-Dataset, z. B. ein (verarbeitetes) fernerkanntes Bild, oder um ein unregelmäßiges Dataset?

— whuber

Nun, ich denke, Sie würden es als unregelmäßig bezeichnen: Es handelt sich um Aufzeichnungen von Verbrechen, die in einem bestimmten Monat in Großbritannien begangen wurden . Diese finden Sie hier: polizei.uk/data .

— Wookai

@Wookai 500.000.000 Verbrechen in Großbritannien in einem Monat ? Ist die Anarchie auf den britischen Inseln niedergegangen, die von der Presse nicht gemeldet wurde, um schließlich in den Polizeiakten enthüllt zu werden? :-) Ich könnte ungefähr 1/100 dieser Menge glauben - kaum.

— whuber

Wow, es tut mir wirklich leid für diesen "Tippfehler";)! Tatsächlich sind es 1000-mal weniger, 500'000 Verbrechen (einschließlich "Fahrzeugverbrechen", dh Geschwindigkeitskarten usw.).

— Wookai

Ja, R sieht gut aus! Ich habe einen sehr vollständigen Bericht über einen Workshop zum Spatstat-Modul von R gefunden, der genau das tut, wonach ich suche: csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html

— Wookai

Antworten:

Die Art der Daten, die Sie beschreiben, wird normalerweise als "markierte Punktmuster" bezeichnet. R verfügt über eine Aufgabenansicht für räumliche Statistiken, die viele gute Pakete für diese Art der Analyse bietet, von denen die meisten wahrscheinlich nicht in der Lage sind, mit der Art der riesigen Daten umzugehen, die Sie verwenden haben :(

Beispielsweise treten Ereignisse vom Typ A normalerweise nicht dort auf, wo Ereignisse vom Typ B auftreten. Oder vielleicht gibt es in einigen Gebieten meistens Ereignisse vom Typ C.

Dies sind zwei ziemlich unterschiedliche Arten von Fragen: Die zweite fragt nach der Positionierung einer Art von Marke / Ereignis. Schlagworte, nach denen Sie in diesem Zusammenhang suchen sollten, sind z. B. Intensitätsschätzung oder K-Funktionsschätzung, wenn Sie Clustermuster (Ereignisse einer Art neigen dazu, sich zu gruppieren) oder Abstoßung (Ereignisse einer Art neigen dazu, getrennt zu sein) entdecken möchten. Der erste fragt nach der Korrelation zwischen verschiedenen Arten von Ereignissen. Dies wird normalerweise mit Markierungskorrelationsfunktionen gemessen.

Ich denke, eine Unterabtastung der Daten, um eine besser nachvollziehbare Datengröße zu erhalten, ist gefährlich (siehe Kommentar zu @ hamners Antwort), aber vielleicht könnten Sie Ihre Daten aggregieren: Teilen Sie das Beobachtungsfenster in eine überschaubare Anzahl von Zellen gleicher Größe und tabellieren Sie die Ereigniszahlen in jeder. Jede Zelle wird dann durch die Position ihres Zentrums und einen 10-Vektor von Zählungen für Ihre 10 Markentypen beschrieben. Sie sollten in der Lage sein, die Standardmethoden für markierte Punktprozesse für diesen aggregierten Prozess zu verwenden.

— Fabianer
quelle

Ich bin mit markierten Punktprozessen und einigen verwandten theoretischen Werkzeugen vertraut, ich hätte vorher darüber nachdenken sollen. Vielen Dank für die Keywords. Haben Sie vielleicht ein paar Hinweise dafür? Vielen Dank auch für die Aggregationsidee, ich hatte eine ähnliche, werde versuchen dies zu tun.

— Wookai

Peter Diggle hat eine "modellbasierte Geostatistik" geschrieben. Er hat auch eine Analyse der Verbrechensdaten von Lancashire auf dieser Seite: lancs.ac.uk/staff/diggle/MADE , die Ihnen einige gute Ideen geben könnte.

— Fabians

Erstens die Größe des Datensatzes. Ich empfehle, kleine, nachvollziehbare Stichproben des Datensatzes zu entnehmen (entweder durch zufällige Auswahl von N Datenpunkten oder durch zufällige Auswahl mehrerer relativ kleiner Rechtecke in der XY-Ebene und durch Entnahme aller Punkte, die in diese Ebene fallen) und anschließend Ihre Analysetechniken für diese Teilmenge zu verfeinern. Sobald Sie eine Vorstellung von der Funktionsweise der Analyse haben, können Sie diese auf größere Teile des Datensatzes anwenden.

PCA wird hauptsächlich als Technik zur Reduzierung der Dimensionalität verwendet. Ihr Datensatz besteht nur aus drei Dimensionen (von denen eine kategorisch ist), daher bezweifle ich, dass dies hier zutreffen würde.

Versuchen Sie, mit Matlab oder R zu arbeiten, um die Punkte zu visualisieren, die Sie in der XY-Ebene analysieren (oder deren relative Dichte, wenn Sie mit dem gesamten Datensatz arbeiten), sowohl für einzelne Typen als auch für alle kombinierten Typen, und um zu sehen, welche Muster visuell entstehen. Dies kann zu einer genaueren Analyse führen.

— Benhamner
quelle

Ob dies angemessen ist, hängt davon ab, was Sie bereits über Ihren Datengenerierungsprozess wissen oder annehmen. Eine Unterabtastung der Daten nach Regionen (dh alle Punkte in einem vordefinierten kleineren Fenster erfassen) kann gefährlich sein, wenn sie nicht homogen sind (da die Verwendung eines anderen Fensters Ihre Schlussfolgerungen geändert hätte). Das Abtasten der Daten ohne Berücksichtigung der Positionierung für einen Trainingssatz hat den Effekt, dass der beobachtete Prozess "ausgedünnt" wird, und macht Schlussfolgerungen ungültig, die Sie möglicherweise über den Bereich der Korrelationen zwischen Markierungen oder Clustering- / Abstoßungsprozessen ziehen möchten.

— Fabians

Ja, ich weiß, dass PCA zur Reduzierung der Dimensionalität dient. Aus diesem Grund war ich verwirrt darüber, wie ich es auf meinen Datensatz anwenden könnte. Die Idee war zu sehen, ob jeder Ereignistyp seine eigene "Richtung" hatte oder ob einige "dieselbe Richtung teilten". Aber ich denke, ich habe nur an Korrelation gedacht.

— Wookai