为什么垃圾邮件检测是分类问题而不是类建模问题

数据挖掘 分类 文本挖掘 支持向量机 朴素贝叶斯分类器 文本
2022-02-23 06:08:30

试图让我的脚湿透文本机器学习。

我在这个领域看到的最常见的数据集是带有 ham 和 spam 类的 sms 数据集。

最常见和最成功的方法似乎是将其建模为二元分类问题,并使用多项式朴素贝叶斯来解决它。

但是我试图理解为什么这是一个二元分类问题。

我了解垃圾邮件类别在整个班级中有一些与之相关的共同特征 - 例如广告、优惠、免费折扣等。

但是没有什么是火腿类的定义吗?火腿的定义是——除了垃圾邮件之外的一切。

那么为什么这是一个二元分类任务呢?

有关更多上下文 - 我正在尝试解决新闻文章属于政治类还是非政治类的问题。

假设我有一个标记数据集,每个类中有大约 3000 个样本。

非政治课是体育课、宗教课、科技课和杂课的混合体。

二元分类器会比诸如 oneclassSVM 之类的算法更好吗?

我可以使用哪些其他算法来解决此问题?我听说过 PU 学习,但我没有在任何机器学习库中看到任何算法的实现(我正在使用 python)

如果你们中有任何人有对文本进行类建模的经验。请分享您的意见和见解

谢谢!

1个回答

关于垃圾邮件与火腿的情况,垃圾邮件类别具有共同的特征(单词)是对的,而火腿类别可以有多个子类别,每个子类别都有不同的特征集。然而,这些不同的特征也可用于将实例标记为“火腿”。例如:如果垃圾邮件通常不涉及体育比分,那么“score”一词的出现可用于将邮件分类为“ham”,即使它与典型的垃圾邮件词(例如“ad”)同时出现", "offer" 等。但是,一类分类器不能利用这种机制。

以类似的方式,特定特征将有助于将新闻文章识别为属于“体育”、“宗教”等,从而使它们更容易被标记为“非政治”。然而,杂项类会更加多样化。

一类 SVM 在您想要检测新实例的情况下很有用,这种情况您以前没有见过,因此无法提前表征。当理解为可用的标记数据集涵盖了您在使用模型进行预测时会看到的典型示例时,可以使用二进制分类。