Die Phrasen:
Der schnelle Braunfuchs springt über den faulen Hund [A]
und
Der schnelle braune Fuchs springt über den faulen Hund [B]
kann unter Verwendung des Levenshtein-Entfernungsalgorithmus verglichen werden, um die Ähnlichkeit zu bestimmen, indem die minimale Anzahl von Hinzufügungen, Löschungen oder Ersetzungen einzelner Zeichen berechnet wird, die erforderlich sind, um A in B umzuwandeln.
Ich bin interessiert zu wissen, ob es eine Zwischendarstellung oder möglicherweise ein Codierungsschema für die Levenshtein-Entfernung gibt. Nicht für die Verwendung zwischen zwei Phrasen, sondern nur für eine Codierung, die auf eine einzelne Phrase angewendet wird, sodass der Zeichenindex die Vergleiche nicht beeinflusst.
In B fehlt das 'q' im Vergleich zu A. Ein normaler Zeichenfolgenvergleich würde übereinstimmen 'The '
und dann 'uick brown fox...'
nur aufgrund eines einzelnen Zeichenversatzes fehlschlagen . Die Levenshtein-Entfernung könnte verwendet werden, um sie mit der ursprünglichen Phrase A zu vergleichen, um einen verzeihenderen Vergleich zu ermöglichen, aber in meinem Fall habe ich nicht zwei Phrasen, nur eine.
Also, ich bin für irgendeine Art von eindeutig Codierung einen Satzes in der Suche Pakete von Informationen, wenig Atome der Wahrheit (ich denke , ein Paket pro Charakter?) , Die eine lokale Ordnung halten und so weiter, aber wenn einige der Pakete falsch sind, wirkt sich dies nicht auf spätere Zeichen aus.
Jede eindeutige Phrase sollte einer und nur einer eindeutigen Codierung / Zwischendarstellung zugeordnet werden, Sets A'
und B'
. Die Berechnung des Levenshtein-Abstands von A und B wäre dann dasselbe wie die Berechnung des Schnittpunkts von Mengen A' = B'
.
Alternativ - wenn dieses Problem keine Lösung hat (und dies sicher einem ausgetretenen Forschungsbereich entspricht, wäre ich nicht überrascht), ein überzeugendes Argument / Beweis für seine Unlösbarkeit.