我有一组英语句子。我正在探索以编程方式创建具有语法错误的句子数据集的方法。以下选项已随机尝试 -
- 通过 POS 标记识别动词、命题等并更改时态或删除它们
- 更改 2 个或更多单词的顺序
- 删除逗号、冒号、分号等。
这些并不总是万无一失的。是否有任何行之有效的方法来解决这个问题?
我有一组英语句子。我正在探索以编程方式创建具有语法错误的句子数据集的方法。以下选项已随机尝试 -
这些并不总是万无一失的。是否有任何行之有效的方法来解决这个问题?
在 NLP 中生成人为错误通常是有风险的,因为很难确保错误的类型和分布与真正的人为错误完全对应。如果人为错误与真实错误不同,并且基于此数据训练模型,则该模型似乎具有非常好的性能,因为它将依赖于用于生成错误的模式。但是,它可能无法很好地处理真实数据,并且很难检测到它。
话虽如此,这是一个已经研究了很长时间的问题,因此最先进的技术应该会有所帮助:Google Scholar 提供了很多参考资料,可能其中一些论文也提供了现有的实现。人们可能会注意到,我上面提到的问题是一个反复出现的问题,最近的一些论文分析了人为错误实际上有多大帮助。