用于图像数据和音频数据(例如语音识别)的数据增强技术已被证明是成功的并且现在很常见。
是否有用于扩充文本数据的库或技术?
例如:
在:“你好吗?”
出:['你好吗?','你好吗?','你好吗?','你好吗?','你好吗',...]
用于图像数据和音频数据(例如语音识别)的数据增强技术已被证明是成功的并且现在很常见。
是否有用于扩充文本数据的库或技术?
例如:
在:“你好吗?”
出:['你好吗?','你好吗?','你好吗?','你好吗?','你好吗',...]
我您想要某种数据集,例如 Google 拼写检查数据,我建议您查看The WikEd Error Corpus数据集。语料库由超过 1200 万个句子组成,总共有 1400 万次各种类型的编辑,这些编辑包括:拼写错误更正、语法错误更正、文体变化。所有这些都来自维基百科的更正历史。数据集的所有者(作者)在本文中描述了数据挖掘过程。还要在quora中检查这个问题,它包含指向各种具有拼写错误的数据集的链接。最后这个页面也很有用。
您可以编写某些简单的规则,例如您在问题中提到的规则。此外,您可以使用Freebase和WordNet等知识库来丰富您的语言模型。请注意,这不一定会“干扰”您的数据,但会产生类似于对下游任务的图像进行数据增强的效果。
我的一个学生最终确实这样做了:
自然语言的数据生成
pip install noisemix
她表明,nosification 为分类等任务带来了显着的改进。
然而,还有很多事情要做,而且噪音通常是特定于任务和领域的。