如何为电子邮件清理/文本提取做特征工程?

数据挖掘 特征选择 特征工程 监督学习
2022-02-22 04:47:41

我有大量要分析的电子邮件数据。为了做到这一点,我需要首先准备数据,因为消息通常 >80% 噪音。一般来说,我的数据集的结构与 ENRON 数据集的结构相去甚远。我需要摆脱签名、标题,最重要的是,自动附加的法律/安全免责声明。

我一直在做一些研究,到目前为止,我已经看到了解决这个问题的两种监督学习方法——一种在线条流上使用多标签顺序学习器;另一个使用多个二进制 SVM 来查找打开/关闭特定类型(签名、标题等)文本块的行。

我对在此类问题中完成特征工程的方式感到困惑。我读过的论文提出了一组混合模式匹配和一些一般文本处理(例如:行长、起始字符)的特性。这些人如何得出这些特定的数据编码规则似乎并不明显。如何确保我识别的特征能够很好地概括我的数据,并且不会在分类过程中引入严重的偏差?

在尝试提出一组功能时,我应该遵循一些一般原则还是完全依赖于数据集?

1个回答

任何自动附加的文本都可以使用基于规则的逻辑删除。最合适的基于规则的逻辑是正则表达式(即regex)。您可以编写一个正则表达式模式来捕获电子邮件数据集中的大部分“噪音”。

要过滤掉的特定模式是特定于领域和问题的。一种将模式视为停用词集合的方法,即具有最小预测价值的常见文本。