大约 700 个平均长度为 15 个单词的句子的数据集是否足以进行文本分类?

人工智能 自然语言处理 分类 数据集 聊天机器人 文本分类
2021-11-09 08:11:57

我正在用 Python 构建一个客户助理聊天机器人。因此,我将此问题建模为文本分类任务。我有大约 700 个句子,平均长度为 15 个单词(不平衡类)。

知道我必须进行过采样,您认为这个数据集是否足够大?

1个回答

这取决于班级的数量;我们每堂课大约有 40 个训练示例,取得了不错的成绩。

了解这一点的一个好方法是使用越来越多的训练数据集进行测试,并在进行过程中评估结果。显然,用一个小的集合(例如每班3个句子),它会很差,但准确率应该很快提高,然后稳定在更高的水平。对于大量数据,您可能只会发现少量增加或根本没有变化。

收集这些数据不仅可以让您对自己的结论充满信心,而且当您必须要求更多训练数据时,它也是一个很好的支持论据,或者如果您确实发现数据集太差,则必须证明分类器的性能不佳。小的。

因此,设置一个自动化的10 倍交叉验证,将越来越多的可用数据输入其中,然后坐下来绘制结果图表。