Würden Sie Online-Geokodierung als Verletzung der Privatsphäre betrachten?


21

Angenommen, ich habe eine Reihe von Adressen von Personen, die an einer bestimmten Studie teilnehmen (höchstwahrscheinlich im Zusammenhang mit der Gesundheit, bei der Datenschutz und ethische Erwägungen immer wichtige Themen sind).

Heutzutage bieten Anbieter wie Google oder Yahoo gute Ergebnisse in Bezug auf die Positionsgenauigkeit.

Die nordamerikanische Vereinigung zentraler Krebsregister ( NAACCR ) listet solche Optionen in ihren Handbüchern " Geocoding Best Practices: Übersicht über acht häufig verwendete Geocodierungssysteme " und " A Geocoding Best Practices Guide " auf.

Cinnamon und Schuurman (2010) haben zum Beispiel den BatchGeocode-Dienst als Teil ihres Tools zur Untersuchung von Verletzungen in ressourcenarmen Umgebungen verwendet.

Würden Sie die Geokodierung solcher Adressen mithilfe von Onlinediensten wie Google Maps oder OpenStreetMap als Verstoß gegen den Datenschutz betrachten?

PS1 möglicherweise verwandte Frage .

In einem kürzlich erschienenen PS2-Artikel in Epidemiology (einem der führenden Peer-Review-Journale auf diesem Gebiet) wurde eine kurze Mitteilung veröffentlicht, in der Anweisungen zur Geokodierung mit Google Maps & Places-APIs enthalten sind. Interessanterweise wurde kein Wort über Sicherheit / Datenschutz erwähnt ...


Community Wiki Umfang Frage?
Artwork21

Antworten:


11

Hier gibt es definitiv eine Auswirkung auf den Datenschutz - insbesondere, wenn Sie mit kleinen Datenmengen arbeiten. Jeder, der versucht, den Datenstrom abzubauen, kann davon ausgehen, dass alle Anforderungen im selben Stapel etwas gemeinsam haben - auch wenn der medizinische Zustand oder die persönlichen Informationen nicht drahtlos weitergegeben werden.

Eine bessere Technik besteht darin, viele nicht verwandte Daten / Patienten für die Massen-Geokodierung zusammenzufassen.

Kombinieren Sie zum Beispiel Ihre Daten, für die eine Geokodierung erforderlich ist, mit anderen Forschern. Je mehr unabhängige Probleme auftreten, desto besser. Ordnen Sie die Anforderungen in zufälliger Reihenfolge an. Und einmal pro Tag Stapelverarbeitung durch diese Warteschlange auf einmal.

Jetzt wird es erheblich schwieriger, die Daten abzubauen, selbst wenn ein Angreifer die Geokodierungsanforderungen abhören kann.


Interessant! Gibt es Tools / Plattformen, die diesen Prozess erleichtern könnten?
Nicolas Raoul

8

Lokale Geokodierung mit verschlüsselten Dateien auf einem sicheren Server wäre definitiv der Goldstandard für Datenschutz. Die Verwendung von Tor ist die zweitbeste Möglichkeit, wenn eine Geokodierung mithilfe einer Remote-API erforderlich ist.

Tor schützt Sie, indem es Ihre Kommunikation über ein verteiltes Netzwerk von Relais leitet, die von Freiwilligen auf der ganzen Welt betrieben werden: Es verhindert, dass ... die besuchten Standorte Ihren physischen Standort erfahren.

Neben der Eingabe von zufälligen Adressen (wie andere hier empfehlen) und der Verwendung von ssl (https) zum Verschlüsseln der Kommunikation mit ihren Endpunkten (stellen Sie sicher, dass Sie dies auch tun), gibt es keine sicherere Möglichkeit zum Geocodieren aus der Ferne als über das Tor-Projekt . Unabhängig davon, welchen Geokodierungsdienst Sie verwenden, können Sie niemals feststellen, woher die Anforderungen letztendlich stammen, und mit https wird dies auch niemand anderes tun. Hinweis: Verwenden Sie keinen Geokodierungsdienst, für den ein API-Schlüssel erforderlich ist, da Sie sonst nicht mehr anonym sind. (Google benötigt keinen API-Schlüssel mehr).

Weitere Details zur Verwendung von Tor finden Sie in meiner Antwort auf eine verwandte Frage hier.


Danke, ich habe nicht an Tor gedacht, aber es scheint eine gute Idee zu sein.
Radek

Selbst wenn Sie Tor verwenden, erhält der Geocodierungsserver Ihre Informationen, was eine grundlegende Verletzung der Privatsphäre darstellt. Sie können dem Geocodierungsserver nicht vertrauen.
Nicolas Raoul

8

Dies ist eine hervorragende Frage, die mir in letzter Zeit mehrmals gestellt wurde, seit ich für eine Adressprüfungsfirma namens SmartyStreets arbeite.

Zuallererst repräsentiert eine Postadresse einen einzelnen auffindbaren Punkt auf der Karte. Eine Adresse an sich ist von Natur aus harmlos, da sie keine zusätzlichen Informationen enthält. Das Zeichnen eines Punktes auf einer Karte hat keine Auswirkungen. Erst wenn Sie beginnen, diesem Punkt (dieser Adresse) CONTEXT zuzuweisen, beginnt es, etwas zu bedeuten.

In diesem Sinne kann eine Postanschrift eine Person, eine Organisation, ein Gebäude, ein Auto oder was auch immer darstellen. Sobald Sie mit dem Sammeln mehrerer Postanschriften beginnen, erhöhen Sie den Kontext, der aus dieser Gruppierung abgeleitet werden kann. Es können Ähnlichkeiten festgestellt werden, um festzustellen, was die Adressen gemeinsam haben. Trotzdem bedeutet nur eine Gruppierung von Adressen in einem ähnlichen Bereich nicht viel Kontext. Ich kann mir eine Google-Karte ansehen und alle Häuser in einem bestimmten Gebiet sehen. Dies ist keine Verletzung der Privatsphäre, es sei denn, ich habe nicht autorisierten Zugriff auf privilegierte Informationen.

Andere Kontextpunkte müssen kombiniert werden, um tatsächlich jegliche Art von privaten Daten preiszugeben. Beispielsweise gibt eine Gruppe von Postanschriften, die zur Adressüberprüfung und / oder Geokodierung an einen Onlinedienst gesendet werden, nur dann Informationen weiter, wenn Sie wissen, von wem die Liste zur Verarbeitung gesendet wurde. Sobald der Listeneigentümer bekannt ist, können bestimmte Rückschlüsse auf die beabsichtigte Verwendung der Liste gezogen werden. Wenn Sie diesen zusätzlichen Kontext kennen, z. B. den Eigentümer der Liste und den Verwendungszweck, gelten Sie mit Sicherheit als privilegierte Informationen und können eine Quelle für Datenschutzverletzungen sein.

Es ist eine Option, die Verarbeitung "intern" zu betreiben, sodass kein externer Datendienst involviert ist. Es schließt jedenfalls jede Art von unbefugtem Zugriff auf privilegierte Informationen aus. Adressüberprüfung und Geokodierung sind keine Aufgaben für Anfänger und erfordern mit Sicherheit fortgeschrittene Kenntnisse (dh Erfahrungen, die im Laufe der Zeit gesammelt wurden), um sehr große Listen zu verarbeiten, ohne übermäßig viel Zeit und Ressourcen zu verbrauchen. Es ist also sicherlich eine Option, es ins Haus zu bringen. Verfügt jedoch jedes Unternehmen mit vertraulichen Adressinformationen über die Ressourcen, um eine eigene "sichere" Adressverarbeitung (einschließlich Geokodierung) im Haus durchzuführen? Nein. (Auch wenn dies für die Leser dieser Website mit Sicherheit Arbeitsplatzsicherheit bedeuten würde.)

Es gibt Möglichkeiten, den erforderlichen Datenschutz aufrechtzuerhalten und dennoch Onlinedienste zu nutzen. Eine Methode wäre, ein Konto zu erstellen, alles zu testen und herauszufinden und dann unter Verwendung einer temporären E-Mail-Adresse ein neues Konto mit einer nicht zugehörigen Rechnungsadresse einzurichten, die mit einer Kreditkarte verknüpft ist, die nicht auf Sie zurückgeführt werden kann. Die Verarbeitung der Adressen auf diesem Konto würde theoretisch keinen wertvollen Kontext preisgeben und somit die Privatsphäre der Personen auf der Liste wahren. (Dies fängt an, wie der Film Enemy Of The State zu klingen .

Wenn das komplex und unnötig klingt, stimme ich zu. Eine einfachere Methode wäre, die Vorteile einer API zu nutzen, die HTTPS und POST verwendet und keine der von Ihnen verarbeiteten Daten speichert oder protokolliert. Die Verwendung von HTTPS bedeutet, dass der einzige Eintrag ein Zeitstempel und die IP-Adresse ist, von der aus Sie anrufen. Die zugrunde liegende URL wäre nicht bekannt. Natürlich würde das Konto, das Sie verwenden, zu Ihnen zurückführen, ABER das ist kein Problem, da Sie mit einer POST-Anfrage eine Nutzlast (in diesem Fall einen Stapel von Adressen) anhängen können und der Inhalt der Nutzlast nicht protokolliert wird. Daher befinden sich die von Ihnen übermittelten Adressen in keinem Serverprotokoll. Und die Tatsache, dass der Speicher zwischen den einzelnen Prozessen gelöscht wird, bedeutet, dass diese Adressen nie gespeichert oder protokolliert werden und ihre Rückübertragung an Sie über eine sichere Verbindung erfolgt.

13Mar2012 06:31 (-6) IP: 12.134.223.12 UserID: 875564 - POST MENGE: 3439942 - [Verarbeitet]

Jeder, der sich die Protokolle ansieht, sieht nur, dass Sie einige Adressen verarbeitet haben und er hat keine Ahnung, welche Adressen verarbeitet wurden. Dies erfüllt selbst die strengsten Datenschutzbestimmungen. Es würde für mich keinen Sinn machen, darauf hinzuweisen, dass diese Art von Service verfügbar (und superschnell ) ist, ohne zu erwähnen, wo man ihn findet. Es ist bereits in den LiveAddress-API-Dienst von SmartyStreets integriert. Andere Dienste wie Cdyne, QAS und ServiceObjects bieten möglicherweise ähnliche Dienste an, von denen ich bisher noch nichts gehört habe.


Vielen Dank für detaillierte Informationen. HTTPS klingt definitiv nach einer vernünftigen Idee. Ich nehme an, dass SmartyStreets auf die USA beschränkt ist.
Radek

Ja, die SmartyStreets-Adressüberprüfung und die Geokodierung sind auf US Postal Service-Adressen beschränkt.
Jeffrey

5

Möglicherweise könnten Sie eine ID erstellen, Ihre Tabelle aufteilen. Persönlich identifizierbare Informationen werden entfernt. Nach der Geokodierung schließen Sie die Tabelle wieder an.

Ich nehme an, Sie könnten nachweisen, dass Sie, sobald Sie die Daten irgendwo auf einem Server laufen lassen, keine Chain-of-Custody mehr aufrechterhalten haben.

Ich habe ziemlich viel zu diesem Thema geschrieben, wenn Sie mir folgen möchten ...

Wolkenbesitz und -kontrolle

Besitz und Kontrolle des elektronischen Zeitalters

Google Buch

Rechtliche Auswirkungen von Cloud Computing

Wenn die Durchsetzung gemäß den gesetzlichen Bestimmungen erfolgt, kann Cloud Computing vollständig von staatlichen Diensten ausgeschlossen werden.


5

Nein, Sie können offline geocodieren. Wenn Sie Online-Batch-Geocoder verwenden, wie wird das Konvertieren von Adressen in geografische Koordinaten zu einem Datenschutzproblem? Es wäre eher ein Problem, wenn jeder Name aufgenommen und veröffentlicht würde. Wie Brad erwähnt, wird die Adresse durch eine ID getrennt und neu abgeglichen, wenn die Adressen geocodiert wurden. Standardverfahren.


5
Ich bin damit einverstanden, dass Sie offline geocodieren können und keine persönlichen Daten preisgeben müssen. Aber ich stimme nicht zu, Ihr Vorschlag, der nur den Namen und die ID als Informationen betrachtet, die vertraulich behandelt werden sollten. Wenn Sie die Privatadresse einer Person auch ohne deren Namen offenlegen, haben Sie sie im Wesentlichen identifiziert. Stellen Sie sich vor, Sie veröffentlichen eine Karte mit Punkten in den Häusern von Menschen mit peinlicher übertragbarer Krankheit.
DavidF

2
Wie Mapperz sagte, sollte es kein Problem geben, solange die von Ihnen gesendeten Informationen auf die Adresse beschränkt sind. Fügen Sie nicht "HECD" oder andere vertrauliche Informationen in die von Ihnen gesendeten Informationen ein.
Jvangeld

1
@DavidF Jede Adresse hat geografische Koordinaten. Die Geokodierung ist zu 99,9% automatisiert. [Berechnung] Es geht kein Datenschutz verloren. Wenn Sie es nicht online mögen, legen Sie es nicht dort ab, verwenden Sie eine Offline-Version.
Mapperz

2
@jvangeld Ich bin immer noch der Meinung, dass die Privatsphäre in der Online-Situation verletzt werden könnte, wenn ein Dritter die Identität der Organisation, die die Geocodierungsanforderung sendet, und die Adressen kombiniert. Wenn die Volksfront für die Behandlung von Vampirismus einen Batch-Geocode mit 100 Adressen einreicht, könnte dann ein Dritter davon ausgehen, dass in den 100 Häusern Menschen lebten, die versuchten, von ihrem „alternativen Lebensstil“ geheilt zu werden? Natürlich ist dies ein ziemlich akademisches Argument, aber wenn Sie wirklich die Privatsphäre und Anonymität schützen möchten, denke ich, dass dies relevant ist.
DavidF

1
Die Meinung von @DavidF ist hier sehr zutreffend: Die Privatadresse wird als sehr sensibel angesehen und kann möglicherweise zur Offenlegung von Studienteilnehmern führen. Wenn es 1000 Anfragen von einer IP-Adresse einer Institution gibt, die sich mit Vampirismus befasst, könnte man einfach davon ausgehen, dass sie Adressen von potenziellen 1000 Vampiren hat. Mein Problem hierbei ist, kann ein Online-Geokodierungsdienst unter solchen Bedingungen als "sicherer Partner" angesehen werden? Können Sie beschuldigt werden, Ihre Daten an unbefugte Personen weitergegeben zu haben, die nicht Teil des Studiums sind? Partei, die durch den Geokodierungsprozess potenziell Zugriff auf Daten erhalten hat?
Radek

4

Geokodierung ist risikoarm Anfang des Jahres haben wir mit einigen Krankenhäusern zusammengearbeitet und diese Frage wurde aufgeworfen. Der Geocodierungsdienst selbst war kein großes Problem, da wir alle Daten außer der ID und der Adresse entfernt, die sichere Übertragung (https) verwendet und die Nutzungsbedingungen unseres internen Geocodierers Datenschutzbestimmungen festgelegt haben, die ausreichten, um ihre Kriterien zu erfüllen.

Das anonyme Anzeigen von Standorten ist schwieriger Das schwierigere Problem bestand darin, Karten mit spärlichen Daten anzuzeigen und dabei die Annonymität beizubehalten. Die erste Option, nach der der Kunde gefragt hat, war das Hinzufügen eines zufälligen "Fudge" zu jedem Punkt, damit der tatsächliche Standort des Hauses verdeckt wird. Das Problem bei diesem Ansatz ist, dass die Größe des erforderlichen Fudges ziemlich groß ist (1/2 Meile oder mehr) (was ist, wenn jemand auf einer Farm lebt) und die Tendenz der Kartenbenutzer, die Punktpositionen als genau zu betrachten. Wir haben uns entschlossen, die angezeigten Punkte zu aggregieren, um anonym zu bleiben, und dabei eine nützliche Karte zu haben. Eine Norm aus anderen Branchen, in denen wir gearbeitet haben, scheint zu sein, dass die Aggregationseinheit mindestens 7 bis 10 Datensätze enthalten muss.


2

Vermutlich haben Sie es geokodiert und die Ergebnisse nicht veröffentlicht? Wenn ja, wie würde die Cloud wissen, was diese Daten darstellen?

Vermutlich können Sie auch alle Daten, die Sie geocodieren, mit zufälligen Daten verschleiern, wobei eventuell vorhandene inhärente Muster ausgeblendet werden.


Richtig, der Punkt besteht darin, einen Satz geografischer Koordinaten für einen bestimmten Datensatz zu erhalten. Der Rest der Analyse wird offline sein und bei jeder weiteren Veröffentlichung werden niemals Informationen auf Einzelebene verwendet. Ich mag die Idee, den Datensatz zu verschleiern!
Radek

2

Ich weiß nicht, ob dies neu ist, da die Frage gestellt wurde, aber wenn sich jemand in der Google Maps API v3 gefragt hat, können Sie SSL (https) verwenden. Auch im Abschnitt zum Datenschutz des NAACCR Best Practices Guide werden diese Probleme behandelt.


2

In Österreich wäre dies definitiv ein Datenschutzproblem.

Erstens: Gesundheitsdaten werden als sensibel eingestuft, und es besteht kein Zweifel, dass sie ohne ausdrückliche Zustimmung der Person, die sich auf diesen Datensatz bezieht, nicht an Dritte weitergegeben werden dürfen.

Auch wenn es anonymisiert ist: Es ist möglich, diese Gesundheitsdaten zu geokodieren, aber es ist auch möglich, öffentlich zugängliche Name-zu-Adresse-Register (Telefonbuch) zu geokodieren und Gesundheitsdaten mit dort lebenden Personen zu verbinden, sodass Adressen ebenfalls als personenbezogen eingestuft werden Daten.

Dies führt dazu, dass Sie diesen Datensatz nicht geokodieren dürfen, indem Sie ihn an Dritte senden, ohne Ihre Teilnehmer explizit zu fragen.


1

Benötigen Sie einen genauen Geocode oder einen allgemeinen Bereich? Möglicherweise können Sie nur die Postleitzahl oder die Teilpostleitzahl verwenden. F


@ user1466: genauer geocode wäre hier definitiv eine vorliebe.
Radek

1

Ich arbeite für eine Geokodierungsfirma ( YAddress.net ) und wir haben eine große Anzahl von Kunden mit strengen Datenschutzanforderungen - Finanzbranche, Gesundheitswesen, Recht usw.

Wir gehen auf zwei Arten auf ihre Datenschutzbedenken ein:

  1. Online-Datenverarbeitung über SSL-verschlüsselte Verbindungen (verhindert das Durchsuchen von Daten während der Übertragung) sowie Datenschutzvereinbarungen auf unserer Seite. Dies ist für einige Kunden ausreichend, aber nicht für alle.

  2. Für ultimativen Datenschutz eine Software-Bereitstellungsoption vor Ort, bei der die Geokodierung vollständig beim Kunden stattfindet und keine Daten jemals über das Internet übertragen werden.

Wie die anderen Kommentatoren zu Recht festgestellt haben, handelt es sich bei einer Postanschrift an sich um eine öffentliche Information, die ohne Kontextdaten (wie Kundennamen, -nummern usw.) keinerlei Offenlegung darstellt. Unternehmen im realen Leben sind jedoch in einem realen rechtlichen Umfeld tätig, in dem diese Argumentation möglicherweise vor Gericht steht oder nicht. Wenn Datenschutz ein dringendes Anliegen ist, lohnen sich möglicherweise zusätzliche Kosten für eine Vor-Ort-Lösung, um das Risiko potenzieller rechtlicher Komplikationen zu vermeiden.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.