Ich würde gerne wissen, wie man Postanschriften vergleicht, wenn sich deren Format unterscheidet oder wenn eine von ihnen falsch geschrieben ist.
Bisher habe ich verschiedene Lösungen gefunden, aber ich denke, dass sie ziemlich alt und nicht sehr effizient sind. Ich bin mir sicher, dass es einige bessere Methoden gibt. Wenn Sie also Referenzen haben, die ich lesen kann, ist dies sicher ein Thema, das möglicherweise mehrere Personen interessiert.
Die Lösung, die ich gefunden habe (Beispiele sind in R):
Levenshtein-Abstand, der der Anzahl der Zeichen entspricht, die Sie einfügen, löschen oder ändern müssen, um ein Wort in ein anderes umzuwandeln.
agrep("acusait", c("accusait", "abusait"), max = 2, value = TRUE)
## [1] "accusait" "abusait"
Der Vergleich von Phonemen
library(RecordLinkage)
soundex(x<-c('accusait','acusait','abusait'))
## [1] "A223" "A223" "A123"
Die Verwendung einer Rechtschreibkorrektur (möglicherweise eine Bayes'sche wie die von Peter Norvig) , die aber in Bezug auf die Adresse meiner Meinung nach nicht sehr effizient ist.
Ich habe überlegt, die Vorschläge von Google zu verwenden, aber es ist auch nicht sehr effizient bei persönlichen Postanschriften.
Sie können sich vorstellen, einen maschinell lernüberwachten Ansatz zu verwenden, müssen jedoch die falsch geschriebenen Anforderungen der Benutzer gespeichert haben, was für mich keine Option ist.