我正在对网站类别执行文档(文本)分类,并使用网站内容(标记化、词干化和小写)。
我的问题是我有一个过度代表的类别,它的数据点比其他任何类别都多(我的数据点中大约 70% 或 4000~ 属于他的一个类别,而大约 20 个其他类别占最后 30%,有些其中有少于 50 个数据点)。
我的第一个问题:
在某些标签的数据稀疏的情况下,我能做些什么来提高分类器的准确性?我是否应该简单地丢弃被过度代表的类别中的一定比例的数据点?我应该在 tf-idf 中使用高斯朴素贝叶斯以外的东西吗?
我的第二个问题:
执行分类后,我将 tfidf 向量以及分类器保存到磁盘。但是,当我对相同的数据重新运行分类时,有时会得到与最初得到的结果不同的结果(例如,如果以前的数据点被分类为“娱乐”,它现在可能会收到“新闻”)。这是否表明我的实施中有错误,还是预期的?