我正在使用 NLP 并且有字符级嵌入。
我从维基百科文本中学习了嵌入。
现在,我想从聊天数据中学习嵌入(拼写错误和缩写更常见)。通常,字符n不跟随字符b,但是,在发短信时,这可能很常见,因为它们在键盘上靠得很近,并且会发生拼写错误。
所以,我的问题是:将字符键盘位置信息合并到传统字符级嵌入的策略是什么?
注意:可以假设只有 QWERTY 键盘存在。
我正在使用 NLP 并且有字符级嵌入。
我从维基百科文本中学习了嵌入。
现在,我想从聊天数据中学习嵌入(拼写错误和缩写更常见)。通常,字符n不跟随字符b,但是,在发短信时,这可能很常见,因为它们在键盘上靠得很近,并且会发生拼写错误。
所以,我的问题是:将字符键盘位置信息合并到传统字符级嵌入的策略是什么?
注意:可以假设只有 QWERTY 键盘存在。
字符键盘位置信息是噪声通道模型信息的一个示例,该错误取决于单词的传输方式。将嘈杂的通道模型信息添加到拼写检查器是很常见的,包括使用字符级嵌入的拼写检查器。
大多数字符级嵌入模型会自动学习为常见的传输错误建模。在数据集中经常混淆的字符将被嵌入到彼此更近的位置,因为它们经常同时出现。通过在训练期间将通道信息显式添加到字符级嵌入模型中,将获得最小的收益。