Ich bin daran interessiert, Datensätze über 2 Datensätze nach Vorname, Nachname und Geburtsjahr zu verknüpfen. Könnte dies mit dem EM-Algorithmus machbar sein, und wenn ja, wie?
Betrachten Sie die folgende Aufzeichnung im 1. als Beispiel: Carl McCarthy, 1967. Ich werde alle Datensätze im 2. Datensatz durchsuchen und einen Jaro-Winkler-Abstand zwischen dem 1. Namen und Carl und einen Jaro-Winkler-Abstand zwischen dem Nachnamen und McCarthy zuweisen. Diese Entfernung ist ebenso probabilistisch wie die Entfernung zwischen den Geburtsjahren. Wir kombinieren diese 3 Wahrscheinlichkeiten (multiplizieren? Durchschnitt?) Zu 1.
Nun kommt der Teil der Entscheidungsregel. Ordnen wir alle Wahrscheinlichkeiten vom höchsten zum niedrigsten. Zuerst wollen wir P (erster Treffer ist Übereinstimmung)> = Schwelle. Zweitens wollen wir auch P (erster Treffer ist Übereinstimmung) / P (zweiter Treffer ist Übereinstimmung)> = Schwelle, wenn P (zweiter Treffer ist Übereinstimmung) existiert. Drittens möchten wir, dass der erste Treffer in diesem zweiten Datensatz nicht mehr als einer Person im ersten Datensatz mit Carl McCarthy, 1967, entspricht.
Wie können diese Schwellenwerte bestimmt werden?
Ich bevorzuge Ansätze in Stata und / oder Perl.
Siehe zum Beispiel:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf
(Obwohl ich damit immer noch nicht vollständig dem Warum oder Wie und den Ein- und Ausgängen sowie den Annahmen und der Restriktivität folge).