Als «record-linkage» getaggte Fragen

1
Stand der Technik bei der Deduplizierung
Was sind die neuesten Methoden bei der Deduplizierung von Datensätzen? Die Deduplizierung wird manchmal auch als Datensatzverknüpfung, Entitätsauflösung, Identitätsauflösung, Zusammenführen / Löschen bezeichnet. Ich kenne zum Beispiel CBLOCK [1]. Ich würde mich freuen, wenn die Antworten auch Verweise auf vorhandene Software enthalten würden, die die Methoden implementiert. Ich weiß zum …

2
Verwenden des EM-Algorithmus für die Datensatzverknüpfung
Ich bin daran interessiert, Datensätze über 2 Datensätze nach Vorname, Nachname und Geburtsjahr zu verknüpfen. Könnte dies mit dem EM-Algorithmus machbar sein, und wenn ja, wie? Betrachten Sie die folgende Aufzeichnung im 1. als Beispiel: Carl McCarthy, 1967. Ich werde alle Datensätze im 2. Datensatz durchsuchen und einen Jaro-Winkler-Abstand zwischen …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.