需要训练多少个训练样例文本分类器?

人工智能 分类
2021-10-28 17:16:19

我想用 12 个类/类别训练文本分类器(使用https://www.uclassify.com )。我将训练它对新闻/文章进行分类(我知道有现有的分类器,但我想训练我自己的)。

uclassify 使用以下算法(直接从他们的网站复制):

核心是一个多项式朴素贝叶斯分类器,有几个步骤可以进一步改进分类(混合互补 NB、类归一化和特殊平滑)。分类的结果是文档属于每个类别的概率 [0-1]。如果您想为分类设置阈值,这非常有用。例如,所有超过 90% 的分类都被视为垃圾邮件。使用此模型还使其在用于分类/训练的 CPU 时间方面非常可扩展。

我想知道训练这样的分类器需要多少示例?可以估计数量吗?假设一篇文章平均“适合” 2 个类别。

1个回答

作为一般经验法则,我通常将 10*(特征数)用于浅层机器学习模型,例如只有 2 个类的朴素贝叶斯。

因此,这完全取决于您将使用的功能数量。但是,输出类别越多,正确区分所需的数据就越多。更多类的添加不是线性的,但我认为你可以逃脱:10*(# of features)*(# of output classes)