Einzelne E-Mails aus einem E-Mail-Thread extrahieren

Die meisten Open-Source-Datasets sind gut formatiert, dh jede E-Mail-Nachricht ist wie das Enron-E-Mail-Dataset gut getrennt. In der realen Welt ist es jedoch sehr schwierig, eine Top-E-Mail-Nachricht von einem E-Mail-Thread zu trennen.

Betrachten Sie zum Beispiel die folgende Meldung.

Hi,

Can you offer me a better discount.

Thanks,
Mr.X
Customer Relations.

---- On Wed, 10 May 2017 04:05:16 -0700 someone@somewhere.com wrote ------

Hello Mr.X,

Does the below work out. Do let us know your thoughts.

Thanks,
Mr.Y

Sales Manager.

Der Grund, warum wir die E-Mails aufteilen möchten, ist, dass wir eine Stimmungsanalyse durchführen möchten. Wenn wir die E-Mail nicht teilen können, sind die Ergebnisse falsch.

Ich habe mich umgesehen und dieses sehr umfassende Forschungspapier gefunden . Fand auch eine Implementierung von Mail Gun namens Mail Gun Talon . Leider funktioniert es bei bestimmten Mustern nicht gut.

Zum Beispiel, wenn die zweite Nachricht im E-Mail-Thread wie bricht

---------- Forwarded message ----------

anstelle der oben genannten

---- On Wed, 10 May 2017 04:05:16 -0700 someone@somewhere.com wrote ------

Meine Frage ist, dass viele Leute, die versuchen, solche Sachen zu machen, definitiv mit solchen Problemen konfrontiert gewesen wären, aber dennoch bleibt die Gegend ziemlich schattig. Gibt es eine ziemlich solide Implementierung des Papiers oder etwas anderes, das E-Mails ziemlich gut aufteilt?

— Gieriger Codierer
quelle

Ist dieser Link für Sie nicht hilfreich?

— Abhishek Verma

Es beschreibt das Problem auf allgemeine Weise, aber ich möchte nur sehen, ob es ein fertiges Dienstprogramm / eine Bibliothek dafür gibt. Es ist hilfreich, aber es gibt zu viel zu studieren und umzusetzen.

— Gieriger Coder

Sie wissen nicht, ob Sie es bereits gesehen haben, aber der Autor des von Ihnen zitierten Papiers hat auf seiner Website eine Implementierung ihrer Methodik in einer Software namens Jangada zur Verfügung gestellt .

— Bogas

@ Bogas: Danke. Das habe ich noch nie gesehen. Werfen Sie einen Blick darauf, wie es funktioniert.

— Greedy Coder

Zunächst können Sie das Format von ARPA-Internet-Textnachrichten lesen .

Sie müssen sich mit der Regex-Analyse befassen, wenn Sie aussagekräftige Informationen aus den E-Mails extrahieren möchten. Ich würde das Oreilly-Buch über Regex vorschlagen oder über reguläre Ausdrücke lesen .

Es gibt auch ein Tool zum Erfassen von Text aus eingehenden E-Mails und zum Schreiben in eine Textdatei .

— Abhishek Verma
quelle