Bearbeiten Sie die Entfernung mit Verschiebevorgängen

Motivation: Ein Mitautor bearbeitet ein Manuskript und ich würde gerne eine übersichtliche Zusammenfassung der Änderungen sehen. Alle "diff" -ähnlichen Werkzeuge sind in der Regel unbrauchbar, wenn Sie sowohl Text verschieben (z. B. die Struktur neu organisieren) als auch lokale Änderungen vornehmen. Ist es wirklich so schwer, es richtig zu machen?

Definitionen: Ich möchte die minimale Bearbeitungsentfernung finden, bei der die zulässigen Operationen sind:

"billige" Operationen: Hinzufügen / Ändern / Löschen eines einzelnen Zeichens (die üblichen Levenshtein-Operationen),
"Teuer": Operationen: Verschieben eines Teilstrings an eine neue Position ( für beliebige Zeichenfolgen , , , ). $abcd \mapsto acbd$ $a$ $b$ $c$ $d$

Mit zwei Zeichenketten und und den ganzen Zahlen und möchte ich das folgende Problem lösen: $x$ $y$ $k$ $K$

Können Sie in umwandeln, indem Sie höchstens billige Operationen und höchstens teure Operationen verwenden? $x$ $y$ $k$ $K$

Fragen:

Hat dieses Problem einen Namen? (Es klingt wie eine sehr Standardfrage im Kontext der Sequenzausrichtung.)
Ist es schwer?
Wenn es schwierig ist, ist es mit als Parameter als fester Parameter verfolgbar ? $K$
Gibt es effiziente Approximationsalgorithmen? (Finden Sie beispielsweise eine Lösung mit höchstens billigen und teuren Operationen, wenn eine Lösung mit billigen und teuren Operationen vorhanden ist.) $2k$ $2K$ $k$ $K$

Ich habe versucht, einen Blick auf die in Wikipedia aufgelisteten String-Metriken zu werfen , aber keine davon sah richtig aus.

— Jukka Suomela
quelle

Für

ist das Problem Sortieren nach Transpositionen. Siehe z. B. web.cs.dal.ca/~whidden/HThesis07.pdf Ich bin auf Ihr Problem nicht gestoßen, aber es scheint sehr gut motiviert zu sein.

k = 0

$k=0$

— Serge Gaspers

Die NP-Härte des Problems Sortieren nach Transpositionen wurde 2010 nachgewiesen, siehe Sortieren nach Transpositionen ist schwierig .

— Marzio De Biasi

Transpositionen sind schwierig, Insertionen und Deletionen jedoch nicht. Wenn Sie für eine teure Operation entweder das Löschen einer beliebigen Teilzeichenfolge oder das Einfügen einer beliebigen Teilzeichenfolge der anderen Zeichenfolge zulassen, sollte das Problem recht einfach werden. Der resultierende Abstand wäre jedoch nicht symmetrisch.

— Jouni Sirén

Ich bin eher neugierig auf die Tractability mit festen Parametern. Gibt es eine neue Entdeckung?

— Yixin Cao

Antworten:

Wie von Serge Gaspers kommentiert, für lautet das Problem Sorting by Transpositionsund wurde 1995 von Bafna und Pevzner eingeführt. Seine NP-Härte wurde erst 2010 nachgewiesen; sieheLaurent Bulteau, Guillaume Fertin und Irena Rusu, "Sortieren nach Transpositionen ist schwierig". $k=0$

— Marzio De Biasi
quelle

Das Problem wird einfacher, wenn wir lange Löschvorgänge und das Kopieren von Teilzeichenfolgen anstelle von Transpositionen berücksichtigen. Es sei angenommen , dass wir den Standard dynamischen Programmieralgorithmus für die Bearbeitungsabstandsberechnung verwenden, und dass eine teuere Operation der Länge erhöht den Abstand von , für einige Konstanten $k$ $ak+b$ . Diese Konstanten können bei langen Löschvorgängen und beim Kopieren von Teilzeichenfolgen unterschiedlich sein. $a,b \ge 0$

Eine lange Löschung ist die Löschung eines beliebigen Teilstrings aus . Sie zu unterstützen ist einfach, wenn wir sie in zwei Arten von einfachen Operationen aufteilen: Löschen des ersten Zeichens (Kosten ) und Erweitern des Löschens um ein Zeichen (Kosten ). Zusätzlich zum Standard-Array , wobei der Bearbeitungsabstand zwischen den Präfixen und , verwenden wir ein anderes Array $x$ $a+b$ $a$ $A$ $A[i,j]$ $x[1 \dots i]$ $y[1 \dots j]$ $A_{d}$ um die Bearbeitungsentfernung zu speichern, wenn die zuletzt verwendete Operation ein langes Löschen war. Mit diesem Array müssen wir beim Rechnen nur , , und und $A[i-1,j]$ $A[i-1,j-1]$ $A[i,j-1]$ $A_{d}[i-1,j]$ $A[i,j]$ $A_{d}[i,j]$ , so dass wir es in tun Zeit. $O(1)$

Unter Kopieren von Teilstrings versteht man das Einfügen eines beliebigen Teilstrings von in den bearbeiteten String. Wie bei langen Löschungen teilen wir die Operation in zwei einfache Operationen auf: Einfügen des ersten Zeichens und Erweitern der Einfügung um ein Zeichen. Wir verwenden auch Array die Bearbeitungs Abstand zwischen Präfixe zu speichern, vorausgesetzt , dass die letzte Operation verwendet Kopieren wurde Strings zurück . $x$ $A_{s}$

Dies effizient durchzuführen ist komplizierter als bei langen Löschvorgängen, und ich bin nicht sicher, ob wir die amortisierte -Zeit pro Zelle erreichen können. Wir erstellen einen Suffixbaum für , der unter der Annahme eines Alphabets mit konstanter Größe . Wir speichern einen Zeiger auf die aktuellen Suffixbaum Knoten in , so dass wir in konstanter Zeit prüfen, ob wir die Einfügung von Zeichen erstrecken . Wenn das wahr ist, können wir berechnen $O(1)$ $x$ $O(|x|)$ $A_{s}[i,j-1]$ $y[j]$ und in konstanter Zeit. $A[i,j]$ $A_{s}[i,j]$

Andernfalls , wobei der inserierte String ist, der verwendet wurde zum Berechnen , ist kein String von . Wir verwenden den Suffixbaum, um das längste Suffix von , für das eine Teilzeichenfolge von , in . Berechnen $zy[j]$ $z$ $A_{s}[i,j-1]$ $x$ $z'$ $z$ $z'y[j]$ $x$ $O(|z|-|z'|)$ müssen wir uns nun die Zellen ansehen bis . Das Auffinden des Suffix erfordert nur die amortisierte -Zeit pro Zelle, aber die Berechnung von mit einem Brute-Force-Ansatz benötigt $A_{s}[i,j]$ $A[i, j-|z'|-1]$ $A[i,j-1]$ $z'$ $O(1)$ $A_{s}[i,j]$ Zeit. Es gibt wahrscheinlich eine Möglichkeit, dies effizienter zu gestalten, aber ich kann sie derzeit nicht finden. $O(|z'|)$

Im schlimmsten Fall benötigt der Algorithmus die Zeit , aber eine bessere Analyse sollte möglich sein. Die resultierende Bearbeitungsentfernung bei langen Löschvorgängen und beim Kopieren von Teilzeichenfolgen ist nicht symmetrisch, aber das sollte kein Problem sein. Schließlich ist es normalerweise einfacher, die leere Zeichenfolge von einer nicht leeren Zeichenfolge aus zu erreichen, als umgekehrt. $O(\min(|x| \cdot |y|^{2}, |x|^{2} \cdot |y|))$

— Jouni Sirén
quelle