数据挖掘 - 是否有用于“噪声化”文本数据的库或技术？ - 吾爱随笔录

是否有用于“噪声化”文本数据的库或技术？

数据挖掘机器学习 nlp 深度学习数据清理数据增强

2022-01-30 10:06:24

用于图像数据和音频数据（例如语音识别）的数据增强技术已被证明是成功的并且现在很常见。

是否有用于扩充文本数据的库或技术？

例如：

在：“你好吗？”
出：['你好吗？'，'你好吗？'，'你好吗？'，'你好吗？'，'你好吗'，...]

3个回答

我您想要某种数据集，例如 Google 拼写检查数据，我建议您查看The WikEd Error Corpus数据集。语料库由超过 1200 万个句子组成，总共有 1400 万次各种类型的编辑，这些编辑包括：拼写错误更正、语法错误更正、文体变化。所有这些都来自维基百科的更正历史。数据集的所有者（作者）在本文中描述了数据挖掘过程。还要在quora中检查这个问题，它包含指向各种具有拼写错误的数据集的链接。最后这个页面也很有用。

您可以编写某些简单的规则，例如您在问题中提到的规则。此外，您可以使用Freebase和WordNet等知识库来丰富您的语言模型。请注意，这不一定会“干扰”您的数据，但会产生类似于对下游任务的图像进行数据增强的效果。

我的一个学生最终确实这样做了：

https://noisemix.github.io/

自然语言的数据生成

 pip install noisemix

她表明，nosification 为分类等任务带来了显着的改进。

然而，还有很多事情要做，而且噪音通常是特定于任务和领域的。

其它你可能感兴趣的问题

上一篇关联规则 - 数据挖掘 - 训练和测试方法？下一篇这种工业过程监控的正确数据分析方法