我必须处理文本分类问题。网络爬虫爬取某个域的网页,对于每个网页,我想知道它是否只属于一个特定的类。也就是说,如果我称这个类为Positive,每个爬取的网页要么属于Positive类,要么属于Non-Positive类。
我已经有大量针对Positive类的网页训练集。但是如何为非阳性类创建一个尽可能具有代表性的训练集呢?我的意思是,我基本上可以使用该课程的所有内容。我可以只收集一些绝对不属于Positive类的任意页面吗?我确信文本分类算法(我更喜欢使用朴素贝叶斯算法)的性能很大程度上取决于我为类Non-Positive选择的网页。
那我该怎么办?有人可以给我一个建议吗?非常感谢你!