如何在字符级嵌入中合并键盘位置?

数据挖掘 神经网络 nlp 特征工程 词嵌入
2022-03-11 07:08:50

我正在使用 NLP 并且有字符级嵌入

我从维基百科文本中学习了嵌入。

现在,我想从聊天数据中学习嵌入(拼写错误和缩写更常见)。通常,字符n不跟随字符b,但是,在发短信时,这可能很常见,因为它们在键盘上靠得很近,并且会发生拼写错误。

所以,我的问题是:将字符键盘位置信息合并到传统字符级嵌入的策略是什么?

注意:可以假设只有 QWERTY 键盘存在。

1个回答

字符键盘位置信息是噪声通道模型信息的一个示例,该错误取决于单词的传输方式。将嘈杂的通道模型信息添加到拼写检查器是很常见的,包括使用字符级嵌入的拼写检查器。

大多数字符级嵌入模型会自动学习为常见的传输错误建模。在数据集中经常混淆的字符将被嵌入到彼此更近的位置,因为它们经常同时出现。通过在训练期间将通道信息显式添加到字符级嵌入模型中,将获得最小的收益。