目标如下:我有一篇大文章,我想定义特定单词的情绪。例如,文章描述了自行车和汽车的优缺点,我想找到汽车这个词的情感。
在这样的示例中,我不能使用文档级 SA,因为文章本身可以是正面的,而汽车则以负面的方式提及。
因此,我研究了与基于方面的情感分析相关的论文,但我的条件是缺乏用于训练 NN 的数据。因此,我专注于基本上不涉及培训过程的方法。我的一个尝试是使用 word2vec 和 K-Means 构建情绪分析工具,以便每个集群对应于三种情绪(pos、neg 和 neu)中的一种。它实际上效果很好,但我发现出于某种原因,一个词可以同时出现在两个集群中。另外,它通常不会针对特定关键字给出情感,而是针对文本中的所有方面。
另一个问题是,如果只是不自己阅读文本并检查关键字是否属于正确的簇,则基本上无法测试输出的正确性。
所以我决定先对文章进行总结,然后再应用情感分析(如 sentiwordnet 或类似)。
问题 1
有没有办法改进 word2vec+KMeans 方法?改善是不是更糟?
问题2
在情感分析之前先进行文本摘要是一个好主意吗?
问题 2
是否有更好的方法可以在不经过训练的情况下找到特定单词的情感(由于没有训练数据和少量未标记数据)?