我正在用 Python 构建一个客户助理聊天机器人。因此,我将此问题建模为文本分类任务。我有大约 700 个句子,平均长度为 15 个单词(不平衡类)。
知道我必须进行过采样,您认为这个数据集是否足够大?
我正在用 Python 构建一个客户助理聊天机器人。因此,我将此问题建模为文本分类任务。我有大约 700 个句子,平均长度为 15 个单词(不平衡类)。
知道我必须进行过采样,您认为这个数据集是否足够大?
这取决于班级的数量;我们每堂课大约有 40 个训练示例,取得了不错的成绩。
了解这一点的一个好方法是使用越来越多的训练数据集进行测试,并在进行过程中评估结果。显然,用一个小的集合(例如每班3个句子),它会很差,但准确率应该很快提高,然后稳定在更高的水平。对于大量数据,您可能只会发现少量增加或根本没有变化。
收集这些数据不仅可以让您对自己的结论充满信心,而且当您必须要求更多训练数据时,它也是一个很好的支持论据,或者如果您确实发现数据集太差,则必须证明分类器的性能不佳。小的。
因此,设置一个自动化的10 倍交叉验证,将越来越多的可用数据输入其中,然后坐下来绘制结果图表。