机器算法验证 - 有没有比在情感分析中计算正负词更好的方法？ - 吾爱随笔录

有没有比在情感分析中计算正负词更好的方法？

机器算法验证 r 情绪分析

2022-04-06 12:47:33

我正在对 AirBnb 的公众评论进行一些情绪分析。（详细审查数据）。 http://insideairbnb.com/get-the-data.html

所以我在巴塞罗那市有大约 230,000 条评论和评论，我想进行一些情绪分析。到目前为止，我已经设法创建了一个算法，可以计算正面和负面的词，并给出每条评论的净情绪。但是，它有很多缺陷，我想改进这个分析。

您建议采用哪种方法来提高网络情绪的质量？我正在使用 R 进行编码，我不希望某些东西太难实现。

非常感谢您的帮助！

2个回答

我强烈建议您坐下来阅读尽可能多的评论（来自您的训练集）。我这样做是为了一个电影评论语料库，并注意到一些奇怪的事情。

某些名义上中性的词通常带有很强的价值。例如，“步调”通常与负面评论相关联，大概是因为您不会在其他情况下提及它。对于 AirBnB，“dump”、“loud”、“distant”、“lumpy”之类的词可能是非常强烈的信号。但是，“dump”也可以显示为“在我们倾倒行李后，我们的好主人......”。您可能会尝试基于解析（这也可以让您更正“not”和“barely”）或通过词性标注器来消除歧义。

电影评论通常具有特定的叙述结构，其中评论者在讨论当前电影之前首先谈论他们的期望或演员/导演/等的先前工作。为了说明这一点，我将评论中单词的位置作为一个特征包括在内。您也许可以在 AirBnB 数据中发现类似的结构。

特征生成与其说是科学，不如说是一门艺术，所以你可能需要尝试很多不同的东西才能找到可以接受的好东西。

密度和强度：正面/负面词出现的频率与文本长度的关系；以及单词的强度如何，例如“fantastic” vs “great” vs “good” vs “fine”。此外，带有某些强调词的上下文，例如“really”、“very”，尤其是“not”。

可以用“但是”、“但是”、“尽管如此”等某些词来进行更微妙的分析，这些词可以软化早期的积极和消极的词。它可以变得随心所欲，但任何算法都应始终根据真实情绪进行测试以判断其可靠性，并随着时间的推移使用更多数据/反馈进行调整/改进。人工智能可能会在这一领域产生重大影响。

但我要推荐的一件事是，不仅要捕捉每条评论的“平均”情绪，还要捕捉评论中情绪的差异。也就是说，评论的整体衡量情绪有多模棱两可或混杂，因为这已经表明了它的可靠性。

其它你可能感兴趣的问题

上一篇获得 R 中 Cohen 的 Kappa 的 95% 置信区间下一篇统计学书籍适用于在介绍性统计学中有概念基础但 R 语言编程背景很少的人