我有大量要分析的电子邮件数据。为了做到这一点,我需要首先准备数据,因为消息通常 >80% 噪音。一般来说,我的数据集的结构与 ENRON 数据集的结构相去甚远。我需要摆脱签名、标题,最重要的是,自动附加的法律/安全免责声明。
我一直在做一些研究,到目前为止,我已经看到了解决这个问题的两种监督学习方法——一种在线条流上使用多标签顺序学习器;另一个使用多个二进制 SVM 来查找打开/关闭特定类型(签名、标题等)文本块的行。
我对在此类问题中完成特征工程的方式感到困惑。我读过的论文提出了一组混合模式匹配和一些一般文本处理(例如:行长、起始字符)的特性。这些人如何得出这些特定的数据编码规则似乎并不明显。如何确保我识别的特征能够很好地概括我的数据,并且不会在分类过程中引入严重的偏差?
在尝试提出一组功能时,我应该遵循一些一般原则还是完全依赖于数据集?