我计算向量相似度是这样的:
nlp = spacy.load('en_trf_xlnetbasecased_lg')
a = nlp("car").vector
b = nlp("plant").vector
dot(a, b)/(norm(a)*norm(b))
0.966813
为什么嵌入的无关词的向量相似度如此之高?这不是他们异常高的唯一一对。我对fastText也有类似的经历,所以我想知道,我是不是误会了什么?
此外,我还可以获得诸如“asdfasfdasfd”或“zzz123Y!/§zzzZz”之类的非单词的向量,它们彼此不同。这怎么可能?