为了简单起见,假设我正在研究垃圾邮件/非垃圾邮件的经典示例。
我有一组 20000 封电子邮件。其中,我知道 2000 封是垃圾邮件,但我没有任何非垃圾邮件的例子。我想预测剩下的 18000 是否是垃圾邮件。理想情况下,我正在寻找的结果是电子邮件是垃圾邮件的概率(或 p 值)。
在这种情况下,我可以使用什么算法来做出明智的预测?
目前,我正在考虑一种基于距离的方法,它可以告诉我我的电子邮件与已知的垃圾邮件有多相似。我有什么选择?
更一般地说,我可以使用监督学习方法,还是我必须在我的训练集中有负面案例才能做到这一点?我是否仅限于无监督学习方法?半监督方法呢?