Benötigen Sie einen Benchmark-GPS-Trajektoriendatensatz?


13

Ich suche einen Benchmark-GPS-Datensatz, der für Forschungszwecke kostenlos zur Verfügung steht. Ich habe GeoLife GPS Trajectories- Dataset von Microsoft Research gefunden, finde es jedoch etwas unvollständig.

Was ich brauche, sind die GPS-Aktivitätsdaten einer Person, wie z. B. (Breiten-, Längen-, Datums-) Tupel, die mindestens einige Monate lang, vorzugsweise kontinuierlich, verfolgt werden. Ich möchte auch, dass die Aufnahmen nicht spärlich sind; Höchstens 1 Minute zwischen jeder Aufzeichnung.

Ich würde es sehr begrüßen, wenn Sie mich auf einen so zuverlässigen Datensatz hinweisen könnten.


2
Muss dieser Datensatz von einem Menschen stammen? (Die Art und Weise, wie Sie bisher alles formuliert haben, impliziert ja, aber ich glaube nicht, dass es ausdrücklich angegeben wurde.)
Dan S.

Antworten:


17

Ich denke, Ihre beste Chance besteht darin, sich selbst zu verfolgen. Wenn die Idee Sie stört, ist das der Grund, warum Sie solche Daten nirgendwo öffentlich finden.



4

Ich würde meinen Atem nicht anhalten. Daten mit einer solchen Genauigkeit wären ein gewaltiges Unterfangen und hätten enorme Auswirkungen auf die Privatsphäre (selbst wenn sie nur 30 Tage lang für eine Person gelten würden, die 43.200 Datenpunkte enthalten würde (wenn sie jede Minute aufgezeichnet würden), und würden zweifellos ihren Heimatort identifizieren).

Wenn Sie an inhaltlichen Fragen interessiert sind, die solche Daten enthalten würden, hilft dieser Hinweis nicht weiter. Wenn Sie sich jedoch nur für eine Art von Analysestrategie interessieren, mit der Sie mit so großen Datenmengen umgehen können, sollten Sie in der Lage sein, Daten in dieser Größenordnung zu simulieren, um unabhängig von Ihren Zwecken zu funktionieren. Um Daten zu simulieren, würde ich vorschlagen, dass Sie sich das R-Statistikprogramm und insbesondere das spatstat und das Trip- Paket (sowie alle räumlichen Module in R) ansehen .

Ich wäre skeptisch, auch wenn Tierdaten in so kurzen Abständen Ihren Anforderungen an Datenpunkte entsprechen würden. Ich könnte ein paar Artikel auflisten, die ich gelesen habe und die Handydaten verwenden, um menschliche Aktivitätsmuster abzuschätzen, aber keine, die ich gelesen habe, würde so lange dauern oder die Aktivität von Personen so häufig messen.


4

Eine Möglichkeit besteht darin, einen Vertrag zu erstellen und eine Menge Leute einzustellen. Stellen Sie ihnen GPS-Geräte zur Verfügung, die so konfiguriert sind, dass sie Messwerte mit den von Ihnen benötigten Daten, ausreichend Batterien für die Vertragsdauer und Anweisungen erfassen können.

In den Vertrag müssten Sie unbedingt schreiben, wie Sie die Verbreitung der Daten einschränken und anonymisieren würden, um sie zu schützen (möglicherweise mit einem ungefähren Ausschlussradius von einer halben Meile um die Punkte, die die Person als privat angibt), und vielleicht sogar Erwägen Sie den Kauf einer Versicherung gegen Verluste. Wenn die Spuren der Aktivitäten der Menschen veröffentlicht würden, würden sie mit Informationen wie "Ich gehe jeden Morgen um 7:00 Uhr zur Arbeit und komme jeden Abend um 19:00 Uhr nach Hause" gefüllt, und ein Grundstück würde wie ein riesiger Stern in der Mitte aussehen auf ihrem Haus sagen "rauben Sie diesen Platz zwischen 8:00 und 18:00 aus." Sie sehen, warum Sie sich Gedanken über Datenschutz und Sicherheit machen müssen.

Wenn Sie darüber nachdenken, fragen Sie nach sehr teuren Daten. Und ohne ein statistisch ausreichend großes Set wird es von zweifelhaftem Wert sein. Stellen Sie sich vor, wie unterschiedlich die Spuren zwischen einem Bauarbeiter (ein neuer Pendler nach jedem fertiggestellten Gebäude), einem Postboten (ein sich sehr wiederholender und sehr kurvenreicher Weg), einem Büroangestellten (ein sich meist wiederholender direkter Weg) und einem Abschleppwagen sind Fahrer (ständig neue Routen.) Der sozioökonomische Status könnte die Spuren beeinflussen: Niedrigere Einkommen könnten mehr den öffentlichen Verkehrsmitteln folgen und weniger reisen. Eltern von Kindern im schulpflichtigen Alter haben möglicherweise durchschnittlich mehr Pendelmeilen nach der Arbeit. Ganz zu schweigen von dem Typen, der die Autos von Google Street View fährt.

Keine dieser Spuren wird wahrscheinlich eine der anderen in irgendeiner sinnvollen Weise schneiden.

Die Anzahl der einzigartigen Stile ist wahrscheinlich begrenzt, aber so hoch, dass ein erhebliches Budget erforderlich ist, um sie zu erhalten. Und das wäre in nur einer Stadt.

Möglicherweise können Sie eine kleinere (billigere) Datenmenge abrufen, wenn Sie Ihre Ziele besser definiert haben. Wenn Sie versuchen, die verschiedenen Arten von Mustern zu quantifizieren, befragen Sie möglicherweise ein breites Spektrum von Menschen in verschiedenen Städten. Wenn Sie herausfinden möchten, wem der Nahverkehr nützen würde oder wo Sie Nahverkehrskorridore verlegen sollten, ist es wahrscheinlich besser, die Autos auf den verschiedenen Straßen in dem Gebiet zu zählen, das Sie bedienen möchten, und Umfragen durchzuführen.


2

Ich suche auch nach dem genauen Dataset-Typ, den Sie suchen. Leider habe ich bisher noch keinen gefunden. Eine andere Quelle, die ich trotz GeoLife-Daten gefunden habe, ist CRAWDAD . Die Seite hat ein GPS-Protokoll von San Francisco Taxis und auch New Yorker Fußgängern. Leider geben NYC-Fußgänger nur relative Koordinaten an und nicht lat / lon.


2

Es gibt viele Forschungsthemen, in denen die zur Beantwortung der Frage erforderlichen Daten aus moralischen Gründen nicht verfügbar sind, und Experimente, die diese Grenzen überschreiten, können zu zukünftigen Einschränkungen führen, wie dies beim Milgram-Experiment der Fall war . In jüngerer Zeit musste AOL aufgrund von Datenschutzbedenken eine Reihe von Suchanfragen stellen , und der einzige zuverlässige Datensatz, den wir zu E-Mail-Gewohnheiten haben, stammte aus der Enron-Studie .

Obwohl es technisch durchaus möglich ist, einen solchen Flugbahndatensatz zu erhalten, kann es sein, dass er aufgrund der Auswirkungen auf den Datenschutz niemals praktikabel ist. Wie bereits in anderen Antworten erwähnt, sind relative Datensätze, Aggregation über Einzelpersonen oder Simulationen möglicherweise bessere Ansätze, um Ihre Frage zu beantworten und gleichzeitig das Datenschutzproblem zu vermeiden.



2

Das offene PFLOW- Projekt bietet:

offener Datensatz für typische Personenmassenbewegungen in städtischen Gebieten

Die Metropolregion Tokio ist verfügbar und die Metropolregion Chukyo scheint in Vorbereitung zu sein.

Details finden Sie in einer aktuellen Publikation:

Takehiro Kashiyama, Yoshihide Sekimoto, Yanbo Pang, Open PFLOW: Erstellung und Auswertung eines offenen Datensatzes für typische Personenmassenbewegungen in städtischen Gebieten, Verkehrsforschung Teil C: Emerging Technologies (2017) Band 85, Seiten 249–267.


Der T-Drive-Trajektoriendatensatz wurde kürzlich gefunden. Es bietet:

eine einwöchige Flugbahn von 10.357 Taxis. Die Gesamtzahl der Punkte in diesem Datensatz beträgt ungefähr 15 Millionen und die Gesamtdistanz der Flugbahnen erreicht 9 Millionen Kilometer.


Obwohl es nicht um menschliche Bewegungen geht, stellt das Unternehmen Liquid Robotics einen interessanten Datensatz aus seiner PacX-Herausforderung zur Verfügung . Daten über Standort und Umgebungssensormesswerte von vier Roboterseglern, die durch den Pazifik segeln, stehen zum Download bereit . Weitere Infos zum (wirklich coolen) Projekt im Blog , via WIRED und diesem Vortrag .


Eine weitere Möglichkeit, die Datenschutzprobleme zu lösen, wäre die Verwendung von Tierdaten. Ich denke, Datenschutz wird hier weniger ein Thema sein. Als Vorteil können Sie Ihre Software / Methoden möglicherweise weiterhin mit realen Bewegungsdaten testen. Ein Nachteil kann sein, dass Ihre Anwendung möglicherweise nicht für Ihren Zweck geeignet ist, wenn sie "menschenspezifische" Bewegungen benötigt.

Werfen Sie einen Blick auf Movebank oder DRYAD Websites zu überprüfen , ob einige ihrer Daten in Ihr Projekt passen könnten.


Bezüglich der von Matthew erwähnten iPhone-Daten können Sie sich Crowdflow- und Openpaths- Projekte ansehen . Vielleicht gibt es eine Möglichkeit, durch sie Daten zu erhalten? Update: Beide Links scheinen jetzt tot zu sein.


Eine weitere Option ist der räumliche Teil der Taxidaten von Chris Whong in NYC . Sie bieten nur Abhol- und Bring-Standorte, sind jedoch aufgrund des Volumens (11 GB!) Und der Kontextinformationen (Tarif, Passagiere usw.) sehr attraktiv (alternativer Download , weitere Informationen zu Datenschutzbedenken aufgrund der Daten).


Der Beitrag von Urška Demšar zu ihrem kürzlich erschienenen Aufsatz über die Analyse der menschlichen Mobilität anhand von Freiwilligenbewegungsdaten und Kontextinformationen verspricht:

In Kürze wird es auch einen kostenlosen Datensatz freiwilliger GPS-Flugbahnen geben, die mit diesem Artikel verknüpft sind. Bleib dran.

( mehr Infos )

Update: Papier erwähnt , dass die Daten zur Verfügung stehen wird auf Crawdad von erwähnten @ejel aber ich havent fand es dort.


Eine andere Möglichkeit könnte darin bestehen, ein synthetisches Dataset selbst zu erstellen . Wenn Sie Inspiration brauchen, schauen Sie sich das aktuelle Paper von van Dijk J (2018) an. Ermitteln von Aktivitätsreisepunkten aus GPS-Daten mit mehreren sich bewegenden Fenstern Computer, Umwelt und städtische Systeme ( Link ). Weitere Informationen finden Sie im Anhang des Dokuments . Der Code und der Beispieldatensatz sind auf github verfügbar .


1

Die Tahina Expedition (Google Earth Blog) http://www.tahinaexpedition.com/map ist seit einem Großteil des letzten Jahres im Einsatz.

KML kann verarbeitet werden http://maps.google.com/maps/ms?source=embed&hl=de&geocode=&ie=UTF8&t=k&msa=0&output=nl&msid=103005318482134016767.0004670ab348ba9fa7b1f [Wurde ein GPS-Track in kml konvertiert?]


@Mapperez - Danke Mapperez, aber was ich brauche, ist ein bisschen anders. Ich möchte die Tag für Tag, Minute für Minute aufgezeichneten GPS-Punkte einer Person an Land. Eine Person mit einer täglichen Routine (etwas Routine) - wie aufstehen, zur Arbeit gehen, Stunden dort verbringen, einkaufen gehen, nach Hause kommen, wiederholen.
Murat

1

Diese Daten werden Google rund um die Uhr kostenlos zur Verfügung gestellt. Es heißt Latitude. Vielleicht werden sie es so großzügig teilen, wie ihre Benutzer es mit ihnen geteilt haben.


1
Ich hoffe sehr, dass sie es nicht werden. Ich bin mir ziemlich sicher, dass sie keine Daten auf dem von der Anwendung von @ Murat geforderten Level veröffentlichen dürfen.
Underdunkel
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.