Es gibt einige Ansätze, die für einige Sprachen besser funktionieren als für andere. Beispielsweise wurde Soundex (und eine andere Beschreibung, die mir gefällt ) für die englische Aussprache von Namen entwickelt. Mit Soundex Michaelwird M240. Dies hat mehrere Schritte:
- Der erste Buchstabe ist isoliert. (
Mund ichael)
- Alle Vokale werden vom Rest (
Mund chl) entfernt
- Konsonanten werden ersetzt
- Linke Pad-Nullen.
Die Gruppierung der Konsonant Konvertierungen werden auf der Grundlage ihrer klangliche Ähnlichkeit - B, F, Pund Valle Karte 1.
Und es gibt Variationen im Laufe der Zeit . Es ist besonders nützlich in der Genealogie, wo sich die Schreibweise eines Namens im Laufe der Zeit ändern kann, die Aussprache jedoch ähnlich bleibt.
Es gibt auch Ansätze wie die Übereinstimmungsbewertung, die von den Fluggesellschaften für Namen (und nicht für amerikanische Genealogie) entwickelt wurde.
Die Kodierung des Match-Rating-Ansatzes (MRA) lautet:
- Lösche alle nicht führenden Vokale (
Michaelwird Mchlund Anthonywird Anthny)
- Entfernen Sie die zweite Konstante von Doppelwerten
- Wenn die Zeichenfolge länger als 6 Zeichen ist, reduzieren Sie die verbleibende Zeichenfolge auf 6 Zeichen, indem Sie die ersten drei und die letzten drei Zeichen verwenden.
Die vollständige Spezifikation dazu finden Sie auf archive.org - beachten Sie, dass es "nicht klein" ist (das gedruckte Formular umfasst 214 Seiten).
Die Vergleiche haben einen Übereinstimmungsschwellenwert, der davon abhängt, wie lang der Text ist.
Es gibt auch andere phonetische Algorithmen .
Daher würde ich Sie ermutigen, entweder den Soundex so wie er ist, den Match-Rating-Ansatz so wie er ist, oder den Soundex basierend auf den rumänischen Konsonanten und den polnischen Konsonanten zu modifizieren .
Denken Sie daran , dass mit soundex werden die Konsonanten gruppiert (Polnisch, m, n, ɲsind alle Nasalkonsonanten gruppiert werden, und Sie würden die Lippen-, Zahn wahrscheinlich Gruppe und alveolaren Plosive - seien sie stimmlos oder zusammen geäußert - gewährt, das tue ich nicht Ich kann Polnisch, also weiß ich nicht, ob ich nur Dinge sage, die dort nicht wahr sind.
Verstecken Sie dann alle Namen in der Datenbank in die beiden verschiedenen Soundex-Systeme und finden Sie heraus, welche Namen in den verschiedenen Sprachen die geringste Anzahl von Kollisionen aufweisen. Dies gibt Ihnen eindeutige Namen. Das zeigt sich Smithalso nicht als Smyth.
Dies löst jedoch nur den "Namen, der wahrscheinlich mit anderen Namen kollidiert und verhört wird". Es spricht nicht die andere Art von "richtig gehört, falsch niedergeschrieben" an, und deshalb sollte man sich auf gebräuchliche Namen konzentrieren.
Zum Beispiel Michaelwar ein sehr verbreiteter Name in den USA von Anfang 1950 bis Ende 1970. Es war sehr beliebt . Aus irgendeinem Grund war der Name Michealjedoch in den 1950er Jahren sehr beliebt (bis zum 83. gebräuchlichsten Namen auf seinem Höhepunkt). Und ich bin mir sicher, dass die Namen der genannten Personen Michealständig falsch geschrieben wurden.
Daher sollten Sie sich auf Namen konzentrieren, bei denen es einen Namen gibt, der die Popularität des Namens für eine bestimmte Aussprache dominiert. Der Blick auf einen anderen Daten der Verbraucher für die Namen von Jahr können Sie sehen , dass Namen mit Jam beginnt ... für einen Jungen sind ein einziges Chaos mit Jamaal, Jamal, Jamarund andere. Im übrigen haben diese Namen etwas andere soundexes für amerikanisches ( J540, J540und J560- das lund rsind in verschiedenen Gruppen , obwohl sie eng in phonetics beziehen). Für jemanden aus Japan gibt es jedoch nur einen Laut in der phonetischen Region, in der lundrwerden im amerikanischen Englisch ausgesprochen. Dies kann auch eine Herausforderung für die führenden Konsonanten darstellen, die Soundex verwenden, dessen man sich bewusst sein sollte (ich habe einmal mit einer Japanerin gearbeitet, die sich Risa (mit einem 'R') nannte, anstatt Lisa als Romanisierung ihres japanischen Namens).
Sie werden feststellen, dass meine Beispiele für die Vereinigten Staaten sind. Diese Daten sind leicht zugänglich. Anscheinend gibt es einige Dinge für Polen und Ungarisch und nur Hinweise auf die Gemeinsamkeit der ungarischen Namen ... Ich vermute, dass die Suche in einer anderen Sprache als Englisch dort hilfreich sein könnte.
Angesichts des Soundex für einen Namen gibt es also nur wenige Kollisionen, und die tatsächliche Schreibweise ist in der Menge der Kollisionen enthalten. Vorzugsweise ist dies ein gebräuchlicher Name. Wenn man sich diese ungarische Liste ansieht, wird Krisztiánes wahrscheinlich zu Rechtschreibfehlern kommen, Zoltánweniger wahrscheinlich (Nr. 22 der häufigsten Babynamen 2011 in Ungarn!). Das heißt, Sie können nichts falsch machen Michael.