是否有用于“噪声化”文本数据的库或技术?

数据挖掘 机器学习 nlp 深度学习 数据清理 数据增强
2022-01-30 10:06:24

用于图像数据和音频数据(例如语音识别)的数据增强技术已被证明是成功的并且现在很常见。

是否有用于扩充文本数据的库或技术?

例如:

在:“你好吗?”
出:['你好吗?','你好吗?','你好吗?','你好吗?','你好吗',...]

3个回答

我您想要某种数据集,例如 Google 拼写检查数据,我建议您查看The WikEd Error Corpus数据集。语料库由超过 1200 万个句子组成,总共有 1400 万次各种类型的编辑,这些编辑包括:拼写错误更正、语法错误更正、文体变化。所有这些都来自维基百科的更正历史。数据集的所有者(作者)在本文中描述了数据挖掘过程还要在quora中检查这个问题,它包含指向各种具有拼写错误的数据集的链接。最后这个页面也很有用。

您可以编写某些简单的规则,例如您在问题中提到的规则。此外,您可以使用FreebaseWordNet等知识库来丰富您的语言模型。请注意,这不一定会“干扰”您的数据,但会产生类似于对下游任务的图像进行数据增强的效果。

我的一个学生最终确实这样做了:

https://noisemix.github.io/

自然语言的数据生成

 pip install noisemix

她表明,nosification 为分类等任务带来了显着的改进。

然而,还有很多事情要做,而且噪音通常是特定于任务和领域的。