试图让我的脚湿透文本机器学习。
我在这个领域看到的最常见的数据集是带有 ham 和 spam 类的 sms 数据集。
最常见和最成功的方法似乎是将其建模为二元分类问题,并使用多项式朴素贝叶斯来解决它。
但是我试图理解为什么这是一个二元分类问题。
我了解垃圾邮件类别在整个班级中有一些与之相关的共同特征 - 例如广告、优惠、免费折扣等。
但是没有什么是火腿类的定义吗?火腿的定义是——除了垃圾邮件之外的一切。
那么为什么这是一个二元分类任务呢?
有关更多上下文 - 我正在尝试解决新闻文章属于政治类还是非政治类的问题。
假设我有一个标记数据集,每个类中有大约 3000 个样本。
非政治课是体育课、宗教课、科技课和杂课的混合体。
二元分类器会比诸如 oneclassSVM 之类的算法更好吗?
我可以使用哪些其他算法来解决此问题?我听说过 PU 学习,但我没有在任何机器学习库中看到任何算法的实现(我正在使用 python)
如果你们中有任何人有对文本进行类建模的经验。请分享您的意见和见解
谢谢!