数据挖掘 - 为什么 TF-IDF 与情绪分析一起工作？ - 吾爱随笔录

为什么 TF-IDF 与情绪分析一起工作？

数据挖掘情绪分析 tfidf

2022-02-13 02:32:07

Word2vec 在我看来非常适合作为情感分析的语料库表示。它有单词之间的关系等。TF-IDF 只有单词的权重有多重要。使用这两种表示进行情感分析的结果非常相似~90%

为什么TF-IDF有这么好的结果？

1个回答

要考虑的一个重要因素是如何使用来自 TF-IDF 或 Word2Vec 的单词/嵌入的数字表示来计算情绪。在不知道你是如何做到这一点的情况下，很难给出具体的答案。另外，你在做什么任务，90% 的结果是什么意思？

不管你如何计算 TF-IDF（有几个定义 - 如下所示），它本质上是为一个单词分配一个数值，从而创建一个 mappng 的排序。Word2Vec 在技术上创建了嵌入，因为它将单个单词映射到向量空间。

从这里拍摄的图像

最终的 TF_IDF 只是词频和逆文档频率的乘积。

我不会详细介绍 Word2Vec 中的向量是如何计算的，但它们也定义了一种将数值向量（嵌入）分配给单个单词的方法。本质上，这两者都在说明一个词在您的文档（您的语料库）的上下文中的重要性，而 Word2Vec 还具有词向量之间比较的可解释性。例如，使用单词的相关向量执行此操作实际上效果很好：

King - Man + Woman = Queen

也许你正在计算的情绪，基于这两种方法中的任何一种，类似于对一个句子中出现的许多单词取平均值，你最终会得到一个归一化和相似的结果。

TF-IDF 采用更直观的方法，查看一个单词一般出现了多少次，它在多少文档中出现以及出现了多少次。Word2Vec 而是查看哪些词经常一起出现（这里通常会提到一个相关的引用：“你可以通过他们所拥有的公司来判断一个人”）。因此，每个 on 背后的直觉略有不同，但每个单词都有数值。或许更进一步的 TF-IDF 比较是看 Doc2Vec。

还有 GLoVE 嵌入模型，它在许多 NLP 任务中得分很高 - 与 Word2Vec 嵌入处于同一水平。

其它你可能感兴趣的问题

上一篇如何从 imageNet 下载图像和边界框？下一篇使用形状 (2,2) 调用输入函数时出错