我正在比较从 BERT 模型和静态 Word2Vec 模型派生的单词表示的余弦相似度。
我知道由于 BERT (768) 和 Word2Vec (300) 的维度,这两个模型的向量空间本质上是不同的。本质上,我试图找到一种方法来比较相同单词但来自两个不同模型的两个余弦相似度测量值。
我还有一组用户确定的单词之间的相似度分数,例如,'vaccinate' - 'inoculate' = 8.99。我正在考虑将其用作两个相似性的比例因子,因此来自向量空间的每个余弦相似性都将按相同的量进行缩放。
我本质上想定量地比较两个模型对相同单词的表示之间的余弦相似度分数。任何帮助,将不胜感激。