Ich habe eine Reihe doppelter Nachrichten im Maildir meines IMAP-Servers. Was ist der beste Weg, um sie zu entfernen?
Einige relevante Punkte:
- Shared Message-ID ist normalerweise eine ausreichend gute Definition für Duplikate. Ein winziges Skript, das alle bis auf eine der doppelten Nachrichten entfernt, würde funktionieren.
- Manchmal ist es notwendig, Duplikate zu finden, die auf gemeinsam genutzten Nachrichtentexten basieren. Was ist eine vernünftige Definition von hier geteilt? Bitweises Äquivalent? Was ist mit seltsamen Unterschieden beim Zeilenumbruch, Escapezeichen und Zeichenkodieren?
- Manchmal gibt es einen bedeutenden Unterschied zwischen "doppelten" Nachrichten. Was ist der beste Weg, um die Unterschiede in Sätzen von "doppelten" Nachrichten zu überprüfen? Diffs?