Ich habe viel mehr danach gesucht und hier ist, was ich gefunden habe. Grundsätzlich gibt es zwei Situationen, in denen Sie dies tun: Wenn Sie den gesamten Thread haben und wenn Sie dies nicht tun. Ich werde es in diese beiden Kategorien aufteilen:
Wenn Sie den Thread haben:
Wenn Sie die gesamte Serie von E-Mails haben, können Sie ein sehr hohes Maß an Sicherheit erreichen, dass das, was Sie entfernen, tatsächlich zitierter Text ist. Es gibt zwei Möglichkeiten, dies zu tun. Zum einen können Sie die Nachrichten-ID, die In-Reply-To-ID und den Thread-Index der Nachricht verwenden, um die einzelne Nachricht, ihre übergeordnete Nachricht und den Thread zu bestimmen, zu dem sie gehört. Weitere Informationen hierzu finden Sie in RFC822 , RFC2822 , in diesem interessanten Artikel zum Threading oder in diesem Artikel zum Threading . Nachdem Sie den Thread neu zusammengestellt haben, können Sie den externen Text (z. B. An, Von, CC usw.) entfernen und fertig.
Wenn die Nachrichten, mit denen Sie arbeiten, keine Überschriften haben, können Sie mithilfe der Ähnlichkeitsübereinstimmung auch bestimmen, welche Teile einer E-Mail der Antworttext sind. In diesem Fall müssen Sie keine Ähnlichkeitsanpassung durchführen, um den Text zu bestimmen, der wiederholt wird. In diesem Fall möchten Sie möglicherweise einen Levenshtein-Entfernungsalgorithmus wie diesen in Code Project oder diesen untersuchen .
Egal was passiert, wenn Sie am Threading-Prozess interessiert sind, lesen Sie dieses großartige PDF zum Zusammensetzen von E-Mail-Threads .
Wenn Sie den Thread nicht haben:
Wenn Sie nur eine Nachricht aus dem Thread haben, müssen Sie versuchen, das Zitat zu erraten. In diesem Fall sind hier die verschiedenen Zitiermethoden, die ich gesehen habe:
- eine Linie (wie im Ausblick zu sehen).
- Winkelhalterungen
- "---Originale Nachricht---"
- "An so und so schrieb so und so:"
Entfernen Sie den Text von dort unten und Sie sind fertig. Der Nachteil bei all diesen ist, dass sie alle davon ausgehen, dass der Absender ihre Antwort über den zitierten Text gestellt und ihn nicht verschachtelt hat (wie es der alte Stil im Internet war). Wenn das passiert, viel Glück. Ich hoffe das hilft einigen von euch da draußen!