在 NLP 中使用数据增强技术得到低结果的原因是什么?

数据挖掘 机器学习 nlp 数据增强
2022-03-16 16:45:00

我在我的数据集上使用了数据增强技术,以获得更多数据进行训练。我的数据是文本,因此数据增强技术基于单词的随机插入、随机交换和同义词替换。

我使用的算法在其他数据集中表现良好,但在我的实验中,与原始实验相比,它给出的准确度较低。有没有逻辑上的解释?

1个回答

文本数据同时为:

  • 非常有条理,因为在一个句子中只交换几个单词就会使它完全胡言乱语,
  • 并且非常灵活,因为通常有很多方法可以在一个句子中表达相同的想法。

因此,很难有一个文本样本足以代表“人口”文本,即涵盖所有可能输入的足够案例。但增强方法实际上肯定会失败,因为它们要么会使文本变得乱七八糟,要么只覆盖不会显着提高覆盖率的微小变化。

这就是为什么 NLP 中的很多工作都是关于实验设计和预处理的。