nlp - 意见挖掘与情绪分析

数据挖掘 nlp 情绪分析
2021-09-23 01:17:06

有人告诉我,nlp 可能是研究人员在写作时推断出一个人的情感状态的关键。例如,通过对在线笔记使用 nlp 分析,您可以推断出学生是否有压力。我在教育认知科学领域工作,所以如果是这样的话,这对我来说将是一个宝贵的资源,但是我正在努力寻找证据证明确实如此。

我已经开始了初步研究,并试图了解一些关于 nlp 的技术方面的知识——我正在参加Jurafsky 和 ​​Manning 的在线课程另一个是 Michael Collins的在线课程——我一直在阅读有关使用 nlp 可以推断什么的信息,特别是围绕意见挖掘和情感分析。

我的问题分为两部分:

  • 首先,我遇到的大多数资源都说类似于 nlp 的东西可以用于意见挖掘和情感分析,我们将讨论意见挖掘的含义。有人可以向我指出更多面向情感分析的资源的方向吗?
  • 其次,据我了解,情感分析是在文本中得出 陈述的情感,例如我很高兴、我喜欢、好吃、喜欢、讨厌、沮丧等。可以使用 nlp 或其他东西来得出未陈述的情感? 这和情绪分析是一回事吗?

[如果在错误的交流中提出这个问题,我们深表歉意。我一直在努力寻找最合适的人选,但有几个候选人,我不确定哪个最合适。]

3个回答

我认为关键是大多数递归神经网络问题都是根据回归(低值表示负面情绪,高值表示正面)或二元分类(这个文本是正面的吗?)来表述的。

您似乎感兴趣的是对情绪的更细致入微的定义。这不存在任何固有问题,因为相同的算法可能很好地预测更复杂的情绪。问题只是标记数据。因为这种分类即使对人类来说也很困难,所以要可靠地收集数据并不容易,比如作家的压力有多大。

但是,如果您对组装这种性质的数据集感兴趣,您可以应用相同的方法(递归神经网络是一种流行的选择)来进行分类。该领域的许多研究人员使用Amazon Mechanical Turk或类似的东西以合理的成本收集标记数据。

情感分析情感检测意见挖掘都涵盖了一组问题,通常可以认为是同一个问题。

情绪分析一词似乎在媒体和行业中更受欢迎。在实践中,截至 2015 年,它主要是关于给文本打分,介于 0.0 和 1.0 之间,用于负面到正面的情绪。(严格来说,这只是一个子问题,也是许多可能的公式之一。)

但是,无论何时使用任何术语,您都应该定义或询问确切问题的定义。

有人可以向我指出更多面向情感分析的资源的方向吗?

有大量关于情绪分析的非常好的论文供您参考。尤其是Twitter 等社交网站上的那些。

然而,我认为 Manning 的书和他的课程作为 NLP 和意见挖掘的参考是一个很好的开始。

可以使用 nlp 或其他东西来获得未说明的影响吗?

是的,可以。这将是我的方法:

(假设我已经有一个手工分类的训练数据)使用词袋方法,可以捕获情绪(压力、快活等)最常用的词和短语,随后的训练数据可以相应地排名为( 60% 的压力,40% 的快乐)。

此外,您还可以定义获得单一情绪的阈值。喜欢:

if mood[score] > .5:
    current_mood = mood