tf-idf 加权的词嵌入是什么意思?

机器算法验证 机器学习 自然语言 word2vec 词嵌入 tf-idf
2022-04-15 14:46:54

我正在阅读的论文解释了它如何实现用于 twitter 情感分类任务的特征向量。

第一种是简单的组合,其中每条推文由构成推文的单词的词嵌入向量的平均值表示。第二种方法也对词嵌入向量进行平均,但现在每个嵌入向量都由它所代表的词的 tf-idf 加权(乘以)。

我理解第一部分基本上只是添加推文的所有词向量,但我不太确定如何获得第二个词向量乘以 tf-idf。

要获得这个向量,我是否只需将 tf-idf 向量器乘以词嵌入的平均值?它是一种什么样的乘法?我也不确定乘法是否会起作用,因为形状不匹配。

1个回答

这句话显然是在谈论从词嵌入中获得的句子嵌入。

如果句子由单词组成,我们想为一些s(w1,...,wn)Embs(s)Rdd>0

本文作者提出从词的嵌入计算它,我们称它们为,因此的线性组合并且具有相同的维度wiEmbw(wi)Embs(s)Embw(wi)d

Embw(s)=wisciEmbw(wi)

.... 其中是系数(标量)。请注意,对于所有词向量都是相同的。ciRd

在最简单的情况下,所有,因此将是组成向量的总和。更好的方法是进行平均,即(处理不同长度的句子)。请注意,维度没有改变,它仍然是ci=1Embs(s)ci=1nd

最后,提出的方法是加权平均,其中权重是 TF-IDF。这允许捕获句子中的某些单词自然比其他单词更有价值。再一次,维度没有问题,因为它是向量的总和,乘以标量。Rd