我想用 12 个类/类别训练文本分类器(使用https://www.uclassify.com )。我将训练它对新闻/文章进行分类(我知道有现有的分类器,但我想训练我自己的)。
uclassify 使用以下算法(直接从他们的网站复制):
核心是一个多项式朴素贝叶斯分类器,有几个步骤可以进一步改进分类(混合互补 NB、类归一化和特殊平滑)。分类的结果是文档属于每个类别的概率 [0-1]。如果您想为分类设置阈值,这非常有用。例如,所有超过 90% 的分类都被视为垃圾邮件。使用此模型还使其在用于分类/训练的 CPU 时间方面非常可扩展。
我想知道训练这样的分类器需要多少示例?可以估计数量吗?假设一篇文章平均“适合” 2 个类别。