Word2vec 在我看来非常适合作为情感分析的语料库表示。它有单词之间的关系等。TF-IDF 只有单词的权重有多重要。使用这两种表示进行情感分析的结果非常相似~90%
为什么TF-IDF有这么好的结果?
Word2vec 在我看来非常适合作为情感分析的语料库表示。它有单词之间的关系等。TF-IDF 只有单词的权重有多重要。使用这两种表示进行情感分析的结果非常相似~90%
为什么TF-IDF有这么好的结果?
要考虑的一个重要因素是如何使用来自 TF-IDF 或 Word2Vec 的单词/嵌入的数字表示来计算情绪。在不知道你是如何做到这一点的情况下,很难给出具体的答案。另外,你在做什么任务,90% 的结果是什么意思?
不管你如何计算 TF-IDF(有几个定义 - 如下所示),它本质上是为一个单词分配一个数值,从而创建一个 mappng 的排序。Word2Vec 在技术上创建了嵌入,因为它将单个单词映射到向量空间。
最终的 TF_IDF 只是词频和逆文档频率的乘积。
我不会详细介绍 Word2Vec 中的向量是如何计算的,但它们也定义了一种将数值向量(嵌入)分配给单个单词的方法。本质上,这两者都在说明一个词在您的文档(您的语料库)的上下文中的重要性,而 Word2Vec 还具有词向量之间比较的可解释性。例如,使用单词的相关向量执行此操作实际上效果很好:
King - Man + Woman = Queen
也许你正在计算的情绪,基于这两种方法中的任何一种,类似于对一个句子中出现的许多单词取平均值,你最终会得到一个归一化和相似的结果。
TF-IDF 采用更直观的方法,查看一个单词一般出现了多少次,它在多少文档中出现以及出现了多少次。Word2Vec 而是查看哪些词经常一起出现(这里通常会提到一个相关的引用:“你可以通过他们所拥有的公司来判断一个人”)。因此,每个 on 背后的直觉略有不同,但每个单词都有数值。或许更进一步的 TF-IDF 比较是看 Doc2Vec。
还有 GLoVE 嵌入模型,它在许多 NLP 任务中得分很高 - 与 Word2Vec 嵌入处于同一水平。