Ich habe einen großen Datensatz (2 Millionen Einträge) von Personen, aber viele Personen haben mehrere Einträge in der Datenbank mit leicht (oder signifikant) unterschiedlichen identifizierenden Informationen. Zum Beispiel kann ich J. Doe und John Doe haben, oder ich kann John Doe mit einer zugehörigen E-Mail-Adresse und John Doe ohne eine zugehörige E-Mail-Adresse haben.

Ich habe mir verschiedene Clustering-Algorithmen angesehen, aber nichts scheint für meine Arbeit gut geeignet zu sein, nämlich die Einträge basierend auf Regeln wie den folgenden zu aggregieren:

Erraten Sie Vor- und Nachnamen basierend darauf, ob einer der Namen in Großbuchstaben geschrieben ist
Aggregieren Sie "J. Doe" und "J. Doe", wenn die E-Mail-Adressen übereinstimmen
aggregieren Sie "J. Doe" zu "John Doe", wenn keine anderen Personen einen Vornamen haben, der mit "J" und einem Nachnamen "Doe" beginnt.

Mit einem kleineren Datensatz wäre dies eine relativ einfache Aufgabe, nur mit einigen einfachen Regeln, aber mit der Anzahl der Einträge, die ich habe, können die Aggregationsaufgaben sehr langsam werden und die Logik wird ziemlich kompliziert. Meine aktuelle Lösung (basierend auf der Verwendung der Volltextsuchfunktion in meiner Datenbank, um ähnliche Einträge zu finden, Hashes basierend auf diesen Ergebnissen hinzuzufügen und dann basierend auf einer Mischung aus Hashes und Arten von Mehrdeutigkeiten zu aggregieren) funktioniert, aber jedes Mal, wenn ich versuche, sie auszuführen oder aktualisieren Sie es, es schreit nur, dass es die Art von Problem ist, die jemand anderes bereits gelöst hat. Aber ich konnte keine Lösung finden.

Gibt es Algorithmen, die basierend auf solchen Regeln das tun, was ich will? Oder bestimmte Pakete oder Software, die hilfreich sein könnten? Oder gehe ich dieses Problem völlig falsch an?

Vielen Dank!

(Bitte beachten Sie jedoch, dass ich mir bewusst bin, dass es viele verschiedene Möglichkeiten gibt, Identitäten falsch zu aggregieren (z. B. dass J. Doe John Doe oder James Doe bedeuten könnte), sodass ich keine Warnungen vor dem Versuch benötige, Dinge zu aggregieren.)

clustering algorithms

— Strickleiter
quelle

Haben Sie nach dem Posten dieser Frage etwas ausprobiert oder sich einen Plan ausgedacht? Welche Sprache bevorzugen Sie? Ich habe einige Ideen im Kopf. Python dictionarywird Ihr bester Freund sein, um einen Schlüssel zu haben, dessen Wert in Ihrem Fall übereinstimmt.

— Innm

Dies heißt en.wikipedia.org/wiki/Record_linkage

— Emre

Clustering wird hier das Falsche sein. Durch statistische Analyse werden Sie "Jan" und "Jane" zusammenführen, da sie sich nur um einen Buchstaben unterscheiden. Diese sollten also höchstens interaktiv verwendet werden, wie z. B. in OpenRefine. Suchen Sie stattdessen nach Datensatzverknüpfungsrecherchen.

— Hat aufgehört - Anony-Mousse

Ich habe mein Problem mit der Verknüpfung von Datensätzen noch nicht erfolgreich gelöst, aber ich wollte einige der Dinge, die ich dabei gefunden habe, für den Fall freigeben, dass sie für andere von Nutzen sind. Dies ist eine laufende Arbeit, die hier auf GitHub basiert .

Verknüpfungsressourcen aufzeichnen

(auch bekannt als Deduplizierung, Datenabgleich, Entitätsauflösung)

Hintergrund

Unterlagen

Wikipedia-Seiten zu Datensatzverknüpfung und Datendeduplizierung
Übersicht Folienhttps: //www.umiacs.umd.edu/~getoor/Tutorials/ER_VLDB2012.pdf
[Dedupe] erklärt, wie ihre Software funktioniert: https://dedupe.io/developers/library/en/latest/How-it-works.html

Gespräche

Peter Christen, Record Linkage-Vorträge bei ADRC-Scotland: 1 2 3 4 (2015)
Mike Mull, Die Kunst und Wissenschaft des Datenabgleichs: https://www.youtube.com/watch?v=Y-nYEOgq3YE (2015)
Rhydwyn Mcguire, Join für das wirkliche Leben: https://www.youtube.com/watch?v=cEcVIjyHfiQ (2013)
Andrew Rowe, Big Data-Deduplizierung und Datenabgleich mit Python: https://www.youtube.com/watch?v=Z6mlvrYEYnk (2013)

Bücher

Peter Christen, Datenabgleich : http://www.springer.com/us/book/9783642311635
Thomas N. Herzog, Fritz J. Scheuren und William E. Winkler, Techniken zur Datenqualität und Datensatzverknüpfung : http://www.springer.com/us/book/9780387695020

Gratis Software

(Letzte Aktualisierung, Github-Stars ab November 2017)

Kommerzielle Software und Lösungen

Datenleiter DataMatch: https://dataladder.com/
Dedupe: https://dedupe.io/ (Freemium-Frontend für die Dedupe Python-Bibliothek)
LinkageWiz: http://www.linkagewiz.net/
WinPure Clean and Match: http://www.winpure.com/cleanmatch.html
Reifier: http://nubetech.co/

Für SAS

(kostenlos, erfordert jedoch SAS) The Link King: http://www.the-link-king.com/

Datenreinigung

Nennen Sie Parser

Python

wahrscheinliche Personen: https://github.com/datamade/probablepeople (2017, 204)
Name Parser: https://github.com/derek73/python-nameparser (2017, 232)

JavaScript

parse-full-name: https://github.com/dschnelldavis/parse-full-name (2017, 18)

Papiere

Organisationen

US Census Burea - Zentrum für statistische Forschung und Methodik - Datensatzverknüpfung: https://www.census.gov/srd/csrm/RecordLinkage.html
Stanford Entity Resolution Framework: http://infolab.stanford.edu/serf/
ANU Data Mining- und Matching-Gruppe https://dmm.anu.edu.au/ https://web.archive.org/web/20160515215747/datamining.anu.edu.au/projects/linkage.html (Link Archive.org) )

Sonstiges

DuDe (Framework zum Vergleichen von Datensatzverknüpfungsergebnissen): https://hpi.de/naumann/projects/data-quality-and-cleansing/dude-duplicate-detection.html
Datensätze zur Bewertung der Deduplizierungssoftware: https://hpi.de/naumann/projects/repeatability/datasets.html
https://www2.vrdc.cornell.edu/news/3/20050420-Record%20Linkage%20Software.pdf