人工智能 - 大约 700 个平均长度为 15 个单词的句子的数据集是否足以进行文本分类？ - 吾爱随笔录

人工智能自然语言处理分类数据集聊天机器人文本分类

2021-11-09 08:11:57

我正在用 Python 构建一个客户助理聊天机器人。因此，我将此问题建模为文本分类任务。我有大约 700 个句子，平均长度为 15 个单词（不平衡类）。

知道我必须进行过采样，您认为这个数据集是否足够大？

1个回答

这取决于班级的数量；我们每堂课大约有 40 个训练示例，取得了不错的成绩。

了解这一点的一个好方法是使用越来越多的训练数据集进行测试，并在进行过程中评估结果。显然，用一个小的集合（例如每班3个句子），它会很差，但准确率应该很快提高，然后稳定在更高的水平。对于大量数据，您可能只会发现少量增加或根本没有变化。

收集这些数据不仅可以让您对自己的结论充满信心，而且当您必须要求更多训练数据时，它也是一个很好的支持论据，或者如果您确实发现数据集太差，则必须证明分类器的性能不佳。小的。

因此，设置一个自动化的10 倍交叉验证，将越来越多的可用数据输入其中，然后坐下来绘制结果图表。

其它你可能感兴趣的问题