我在我的数据集上使用了数据增强技术,以获得更多数据进行训练。我的数据是文本,因此数据增强技术基于单词的随机插入、随机交换和同义词替换。
我使用的算法在其他数据集中表现良好,但在我的实验中,与原始实验相比,它给出的准确度较低。有没有逻辑上的解释?
我在我的数据集上使用了数据增强技术,以获得更多数据进行训练。我的数据是文本,因此数据增强技术基于单词的随机插入、随机交换和同义词替换。
我使用的算法在其他数据集中表现良好,但在我的实验中,与原始实验相比,它给出的准确度较低。有没有逻辑上的解释?
文本数据同时为:
因此,很难有一个文本样本足以代表“人口”文本,即涵盖所有可能输入的足够案例。但增强方法实际上肯定会失败,因为它们要么会使文本变得乱七八糟,要么只覆盖不会显着提高覆盖率的微小变化。
这就是为什么 NLP 中的很多工作都是关于实验设计和预处理的。