大多数开源数据集的格式都很好,即每封电子邮件消息都像安然电子邮件数据集一样分开。但在现实世界中,很难将顶级电子邮件消息与电子邮件线程分开。
例如考虑以下消息。
Hi,
Can you offer me a better discount.
Thanks,
Mr.X
Customer Relations.
---- On Wed, 10 May 2017 04:05:16 -0700 someone@somewhere.com wrote ------
Hello Mr.X,
Does the below work out. Do let us know your thoughts.
Thanks,
Mr.Y
Sales Manager.
现在我们想要拆分电子邮件的原因是因为我们想要进行情绪分析。当我们未能拆分电子邮件时,结果将是错误的。
我四处搜寻,发现了这篇非常全面的研究论文。还发现了一个名为mail gun talon的 mail gun 实现。但不幸的是,它不适用于某些类型的模式。
例如,当电子邮件线程中的第二条消息中断时
---------- Forwarded message ----------
而不是上面的
---- On Wed, 10 May 2017 04:05:16 -0700 someone@somewhere.com wrote ------
我的问题是,许多试图做这些事情的人肯定会面临这样的问题,但该地区仍然非常阴暗。是否有任何非常可靠的论文实现或其他可以很好地拆分电子邮件的东西。