由于 FastText 总结了一个 OOV 词的子词的向量(不考虑顺序),两个不同的 OOV 词是否有可能得到相同的向量?如果是这样,那你能举个例子吗?
2 个不同的 OOV 词可以在 FastText 中获得相同的向量吗?
数据挖掘
词嵌入
word2vec
向量空间模型
2022-01-29 12:14:15
1个回答
TL;博士
理论上是可能的,但不太可能。
1)不常见的子词
word1 = 'iiii'
word2 = 'jjjj'
word1_subwords = ['<ii', 'iii', 'iii', 'ii>']
word2_subwords = ['<jj', 'jjj', 'jjj', 'jj>']
在这个例子中,基本上有6
子词: ['<ii', '<jj', 'iii', 'jjj', 'ii>', 'jj>']
,但这些通常不是常见的子词。因此,所有子词的嵌入有可能是相同的(例如[0,0,...,0,0]
),使得它们的总和都相同。
2) 同形异义词
word1 = 'lie' # meaning: tell something untruthful
word2 = 'lie' # meaning: to rest on a horizontal position
在这个例子中,有两个同形异义词。这些是不同的词,但它们的拼写相同。由于 FastText 仅考虑语法,因此它们将具有相同的子词嵌入总和。
其它你可能感兴趣的问题