上下文拼写更正

数据挖掘 机器学习 神经网络 rnn
2022-02-28 23:58:31

我想创建一个拼写检查器,可以根据上下文纠正拼写错误。

例如,

错句:我要申请信用卡

更正句子:我要申请信用卡

在这里,cartcard各自的拼写是正确的,但是cart在上下文中是不正确的。

那么我们可以应用哪些方法来处理这样的上下文错误呢?

1个回答

这是一种我们可以尝试并可能适用于不太复杂的问题的方法。

大型数据语料库:我们将需要非常庞大的文本数据语料库。它应该包含尽可能多的单词。自然语言短语和搭配也是必需的。

现在,我们使用 Word2Vec 对语料库中的所有句子进行编码。

之后,我们将训练一个文本生成模型,给定一个单词来预测下一个单词。

如果我们考虑上面的例子,“card”这个词与“credit”这个词是口语化的。这种关系将在我的模型中学习。

该模型的行为类似于,“信用”之后最常用的词是哪个?这不是“购物车”。