为 nlp 准备电子邮件文本(情绪分析)

数据挖掘 nlp 情绪分析
2022-02-13 23:23:30

我有电子邮件文本,其中还包含免责声明、电话号码、电子邮件地址、文件附件名称、地址、问候语等。

目前,我盲目地通过一个名为Vader的 OOTB 情绪分析器传递此文本,但结果不佳(即,如果我打开一封标记为负面的电子邮件,我的人类理解并不能确认情绪 - 查看核心英文文本)。

我可以使用正则表达式等去除电子邮件地址、文件名等,但其他文本组件(例如地址、免责声明)更难删除。顺便说一句,免责声明通常是负面的......

无论如何,我想知道是否有人知道我的场景的文本准备方法 - 提取核心人类文本。谷歌搜索取得了一定的成功。谢谢!

1个回答

我过去做过类似的事情。我给你画个大纲。

首先,您将文本分成段落并标记。然后编写一些正则表达式规则来捕获要删除的数据。例如,如果电子邮件签名通常包含电话号码、段落和网站,您可以计算这些特征并根据您决定的某个阈值对其进行标记。

接下来,对您提到的其他功能进行同样的操作。我的经验是它高度依赖于领域,因此您确实需要查看数据并使用您的最佳判断。

此过程的结果应该是由标记化段落组成的数据,其中该段落已根据特征计数标记为“噪声”或“干净”。

从那里,使用 tf-idf 或其他类型的嵌入转换您的令牌表示。您应该能够将其用作您最喜欢的分类器的输入,为此我已经成功使用 SVM。

结果将偏向于您的规则,但您也在利用标记示例中未明确包含在规则中的功能。对于较长的段落尤其如此。

它可能看起来有点笨拙,但信不信由你。