从电子邮件线程中提取单个电子邮件

数据挖掘 分类 scikit-学习 阿帕奇火花 预处理 情绪分析
2021-09-17 16:39:09

大多数开源数据集的格式都很好,即每封电子邮件消息都像安然电子邮件数据集一样分开。但在现实世界中,很难将顶级电子邮件消息与电子邮件线程分开。

例如考虑以下消息。

Hi,

Can you offer me a better discount.

Thanks,
Mr.X
Customer Relations.

---- On Wed, 10 May 2017 04:05:16 -0700 someone@somewhere.com wrote ------

Hello Mr.X,

Does the below work out. Do let us know your thoughts.

Thanks,
Mr.Y

Sales Manager.

现在我们想要拆分电子邮件的原因是因为我们想要进行情绪分析。当我们未能拆分电子邮件时,结果将是错误的。

我四处搜寻,发现了这篇非常全面的研究论文还发现了一个名为mail gun talon的 mail gun 实现。但不幸的是,它不适用于某些类型的模式。

例如,当电子邮件线程中的第二条消息中断时

---------- Forwarded message ---------- 

而不是上面的

---- On Wed, 10 May 2017 04:05:16 -0700 someone@somewhere.com wrote ------

我的问题是,许多试图做这些事情的人肯定会面临这样的问题,但该地区仍然非常阴暗。是否有任何非常可靠的论文实现或其他可以很好地拆分电子邮件的东西。

1个回答

首先,您可以了解ARPA 互联网短信的格式

如果您要从电子邮件中提取任何有意义的信息,您将不得不进行正则表达式解析。我建议阅读 Oreilly 关于正则表达式的书,或者阅读正则表达式

还有一个工具可以从收到的电子邮件中捕获文本并写入文本文件