我想创建一个拼写检查器,可以根据上下文纠正拼写错误。
例如,
错句:我要申请信用卡
更正句子:我要申请信用卡
在这里,cart和card各自的拼写是正确的,但是cart在上下文中是不正确的。
那么我们可以应用哪些方法来处理这样的上下文错误呢?
我想创建一个拼写检查器,可以根据上下文纠正拼写错误。
例如,
错句:我要申请信用卡
更正句子:我要申请信用卡
在这里,cart和card各自的拼写是正确的,但是cart在上下文中是不正确的。
那么我们可以应用哪些方法来处理这样的上下文错误呢?
这是一种我们可以尝试并可能适用于不太复杂的问题的方法。
大型数据语料库:我们将需要非常庞大的文本数据语料库。它应该包含尽可能多的单词。自然语言短语和搭配也是必需的。
现在,我们使用 Word2Vec 对语料库中的所有句子进行编码。
之后,我们将训练一个文本生成模型,给定一个单词来预测下一个单词。
如果我们考虑上面的例子,“card”这个词与“credit”这个词是口语化的。这种关系将在我的模型中学习。
该模型的行为类似于,“信用”之后最常用的词是哪个?这不是“购物车”。