Die meisten Open-Source-Datasets sind gut formatiert, dh jede E-Mail-Nachricht ist wie das Enron-E-Mail-Dataset gut getrennt. In der realen Welt ist es jedoch sehr schwierig, eine Top-E-Mail-Nachricht von einem E-Mail-Thread zu trennen.
Betrachten Sie zum Beispiel die folgende Meldung.
Hi,
Can you offer me a better discount.
Thanks,
Mr.X
Customer Relations.
---- On Wed, 10 May 2017 04:05:16 -0700 someone@somewhere.com wrote ------
Hello Mr.X,
Does the below work out. Do let us know your thoughts.
Thanks,
Mr.Y
Sales Manager.
Der Grund, warum wir die E-Mails aufteilen möchten, ist, dass wir eine Stimmungsanalyse durchführen möchten. Wenn wir die E-Mail nicht teilen können, sind die Ergebnisse falsch.
Ich habe mich umgesehen und dieses sehr umfassende Forschungspapier gefunden . Fand auch eine Implementierung von Mail Gun namens Mail Gun Talon . Leider funktioniert es bei bestimmten Mustern nicht gut.
Zum Beispiel, wenn die zweite Nachricht im E-Mail-Thread wie bricht
---------- Forwarded message ----------
anstelle der oben genannten
---- On Wed, 10 May 2017 04:05:16 -0700 someone@somewhere.com wrote ------
Meine Frage ist, dass viele Leute, die versuchen, solche Sachen zu machen, definitiv mit solchen Problemen konfrontiert gewesen wären, aber dennoch bleibt die Gegend ziemlich schattig. Gibt es eine ziemlich solide Implementierung des Papiers oder etwas anderes, das E-Mails ziemlich gut aufteilt?