2 个不同的 OOV 词可以在 FastText 中获得相同的向量吗?

数据挖掘 词嵌入 word2vec 向量空间模型
2022-01-29 12:14:15

由于 FastText 总结了一个 OOV 词的子词的向量(不考虑顺序),两个不同的 OOV 词是否有可能得到相同的向量?如果是这样,那你能举个例子吗?

1个回答

TL;博士

理论上是可能的,但不太可能。

1)不常见的子词

word1 = 'iiii'
word2 = 'jjjj'

word1_subwords = ['<ii', 'iii', 'iii', 'ii>']
word2_subwords = ['<jj', 'jjj', 'jjj', 'jj>']

在这个例子中,基本上有6子词: ['<ii', '<jj', 'iii', 'jjj', 'ii>', 'jj>'],但这些通常不是常见的子词。因此,所有子词的嵌入有可能是相同的(例如[0,0,...,0,0]),使得它们的总和都相同。

2) 同形异义词

word1 = 'lie' # meaning: tell something untruthful
word2 = 'lie' # meaning: to rest on a horizontal position

在这个例子中,有两个同形异义词。这些是不同的词,但它们的拼写相同。由于 FastText 仅考虑语法,因此它们将具有相同的子词嵌入总和。