Es gibt einige Ansätze, die für einige Sprachen besser funktionieren als für andere. Beispielsweise wurde Soundex (und eine andere Beschreibung, die mir gefällt ) für die englische Aussprache von Namen entwickelt. Mit Soundex Michael
wird M240. Dies hat mehrere Schritte:
- Der erste Buchstabe ist isoliert. (
M
und ichael
)
- Alle Vokale werden vom Rest (
M
und chl
) entfernt
- Konsonanten werden ersetzt
- Linke Pad-Nullen.
Die Gruppierung der Konsonant Konvertierungen werden auf der Grundlage ihrer klangliche Ähnlichkeit - B
, F
, P
und V
alle Karte 1
.
Und es gibt Variationen im Laufe der Zeit . Es ist besonders nützlich in der Genealogie, wo sich die Schreibweise eines Namens im Laufe der Zeit ändern kann, die Aussprache jedoch ähnlich bleibt.
Es gibt auch Ansätze wie die Übereinstimmungsbewertung, die von den Fluggesellschaften für Namen (und nicht für amerikanische Genealogie) entwickelt wurde.
Die Kodierung des Match-Rating-Ansatzes (MRA) lautet:
- Lösche alle nicht führenden Vokale (
Michael
wird Mchl
und Anthony
wird Anthny
)
- Entfernen Sie die zweite Konstante von Doppelwerten
- Wenn die Zeichenfolge länger als 6 Zeichen ist, reduzieren Sie die verbleibende Zeichenfolge auf 6 Zeichen, indem Sie die ersten drei und die letzten drei Zeichen verwenden.
Die vollständige Spezifikation dazu finden Sie auf archive.org - beachten Sie, dass es "nicht klein" ist (das gedruckte Formular umfasst 214 Seiten).
Die Vergleiche haben einen Übereinstimmungsschwellenwert, der davon abhängt, wie lang der Text ist.
Es gibt auch andere phonetische Algorithmen .
Daher würde ich Sie ermutigen, entweder den Soundex so wie er ist, den Match-Rating-Ansatz so wie er ist, oder den Soundex basierend auf den rumänischen Konsonanten und den polnischen Konsonanten zu modifizieren .
Denken Sie daran , dass mit soundex werden die Konsonanten gruppiert (Polnisch, m
, n
, ɲ
sind alle Nasalkonsonanten gruppiert werden, und Sie würden die Lippen-, Zahn wahrscheinlich Gruppe und alveolaren Plosive - seien sie stimmlos oder zusammen geäußert - gewährt, das tue ich nicht Ich kann Polnisch, also weiß ich nicht, ob ich nur Dinge sage, die dort nicht wahr sind.
Verstecken Sie dann alle Namen in der Datenbank in die beiden verschiedenen Soundex-Systeme und finden Sie heraus, welche Namen in den verschiedenen Sprachen die geringste Anzahl von Kollisionen aufweisen. Dies gibt Ihnen eindeutige Namen. Das zeigt sich Smith
also nicht als Smyth
.
Dies löst jedoch nur den "Namen, der wahrscheinlich mit anderen Namen kollidiert und verhört wird". Es spricht nicht die andere Art von "richtig gehört, falsch niedergeschrieben" an, und deshalb sollte man sich auf gebräuchliche Namen konzentrieren.
Zum Beispiel Michael
war ein sehr verbreiteter Name in den USA von Anfang 1950 bis Ende 1970. Es war sehr beliebt . Aus irgendeinem Grund war der Name Micheal
jedoch in den 1950er Jahren sehr beliebt (bis zum 83. gebräuchlichsten Namen auf seinem Höhepunkt). Und ich bin mir sicher, dass die Namen der genannten Personen Micheal
ständig falsch geschrieben wurden.
Daher sollten Sie sich auf Namen konzentrieren, bei denen es einen Namen gibt, der die Popularität des Namens für eine bestimmte Aussprache dominiert. Der Blick auf einen anderen Daten der Verbraucher für die Namen von Jahr können Sie sehen , dass Namen mit Jam beginnt ... für einen Jungen sind ein einziges Chaos mit Jamaal
, Jamal
, Jamar
und andere. Im übrigen haben diese Namen etwas andere soundexes für amerikanisches ( J540
, J540
und J560
- das l
und r
sind in verschiedenen Gruppen , obwohl sie eng in phonetics beziehen). Für jemanden aus Japan gibt es jedoch nur einen Laut in der phonetischen Region, in der l
undr
werden im amerikanischen Englisch ausgesprochen. Dies kann auch eine Herausforderung für die führenden Konsonanten darstellen, die Soundex verwenden, dessen man sich bewusst sein sollte (ich habe einmal mit einer Japanerin gearbeitet, die sich Risa (mit einem 'R') nannte, anstatt Lisa als Romanisierung ihres japanischen Namens).
Sie werden feststellen, dass meine Beispiele für die Vereinigten Staaten sind. Diese Daten sind leicht zugänglich. Anscheinend gibt es einige Dinge für Polen und Ungarisch und nur Hinweise auf die Gemeinsamkeit der ungarischen Namen ... Ich vermute, dass die Suche in einer anderen Sprache als Englisch dort hilfreich sein könnte.
Angesichts des Soundex für einen Namen gibt es also nur wenige Kollisionen, und die tatsächliche Schreibweise ist in der Menge der Kollisionen enthalten. Vorzugsweise ist dies ein gebräuchlicher Name. Wenn man sich diese ungarische Liste ansieht, wird Krisztián
es wahrscheinlich zu Rechtschreibfehlern kommen, Zoltán
weniger wahrscheinlich (Nr. 22 der häufigsten Babynamen 2011 in Ungarn!). Das heißt, Sie können nichts falsch machen Michael
.