数据挖掘 - 使用机器学习检测垃圾邮件 - 吾爱随笔录

使用机器学习检测垃圾邮件

数据挖掘机器学习

2021-09-21 09:51:08

大多数在线教程都喜欢使用一个简单的示例通过分类垃圾邮件中的未知文本或非垃圾邮件来介绍机器学习。他们说这是一个二元类问题。但为什么这是一个二元类问题？我认为这是一个一类问题！我只需要收件箱的正面样本来了解什么不是垃圾邮件。如果我确实将一堆非垃圾邮件文本作为正样本，将一堆垃圾邮件作为负样本，那么当然可以训练一个二元分类器并从未标记的数据中进行预测，但是与 onc 的区别在哪里-类方法？在那里，我将定义所有非垃圾邮件示例的训练集并训练一些一类分类器。你怎么认为？

2个回答

严格来说，“一类分类”作为一个想法是没有意义的。如果预测值只有一种可能的状态，则不存在预测问题。答案总是单一的类。

具体来说，如果您只有垃圾邮件示例，您将始终通过将所有电子邮件分类为垃圾邮件来达到 100% 的准确率。这显然是错误的，要知道错误的唯一方法是知道分类错误的地方——电子邮件不在垃圾邮件类别中的地方。

所谓的一类分类技术实际上是异常检测方法。他们有一个隐含的假设，即与示例不同的东西不是单个类的一部分，但这只是关于数据可能不在类中的假设。那里潜伏着一个二元分类问题。

二元分类器有什么问题？

如果要将新示例分类为垃圾邮件或非垃圾邮件，就会出现问题。一个类的方法只会给你一些新实例与这个类的匹配程度的分数，但是你如何在不知道另一个类的分数有多大的情况下将其转换为二元预测呢？

如果你看一下朴素贝叶斯分类器，它基本上为每个类训练一个“一类”模型，并通过选择得分最高的类来得出预测。但这要求您拥有所有课程的训练示例。

其它你可能感兴趣的问题

上一篇什么是二元分类器的判别阈值？下一篇如何从各种算法中选择最好的机器学习算法？