我正在对 AirBnb 的公众评论进行一些情绪分析。(详细审查数据)。 http://insideairbnb.com/get-the-data.html
所以我在巴塞罗那市有大约 230,000 条评论和评论,我想进行一些情绪分析。到目前为止,我已经设法创建了一个算法,可以计算正面和负面的词,并给出每条评论的净情绪。但是,它有很多缺陷,我想改进这个分析。
您建议采用哪种方法来提高网络情绪的质量?我正在使用 R 进行编码,我不希望某些东西太难实现。
非常感谢您的帮助!
我正在对 AirBnb 的公众评论进行一些情绪分析。(详细审查数据)。 http://insideairbnb.com/get-the-data.html
所以我在巴塞罗那市有大约 230,000 条评论和评论,我想进行一些情绪分析。到目前为止,我已经设法创建了一个算法,可以计算正面和负面的词,并给出每条评论的净情绪。但是,它有很多缺陷,我想改进这个分析。
您建议采用哪种方法来提高网络情绪的质量?我正在使用 R 进行编码,我不希望某些东西太难实现。
非常感谢您的帮助!
我强烈建议您坐下来阅读尽可能多的评论(来自您的训练集)。我这样做是为了一个电影评论语料库,并注意到一些奇怪的事情。
某些名义上中性的词通常带有很强的价值。例如,“步调”通常与负面评论相关联,大概是因为您不会在其他情况下提及它。对于 AirBnB,“dump”、“loud”、“distant”、“lumpy”之类的词可能是非常强烈的信号。但是,“dump”也可以显示为“在我们倾倒行李后,我们的好主人......”。您可能会尝试基于解析(这也可以让您更正“not”和“barely”)或通过词性标注器来消除歧义。
电影评论通常具有特定的叙述结构,其中评论者在讨论当前电影之前首先谈论他们的期望或演员/导演/等的先前工作。为了说明这一点,我将评论中单词的位置作为一个特征包括在内。您也许可以在 AirBnB 数据中发现类似的结构。
特征生成与其说是科学,不如说是一门艺术,所以你可能需要尝试很多不同的东西才能找到可以接受的好东西。
密度和强度:正面/负面词出现的频率与文本长度的关系;以及单词的强度如何,例如“fantastic” vs “great” vs “good” vs “fine”。此外,带有某些强调词的上下文,例如“really”、“very”,尤其是“not”。
可以用“但是”、“但是”、“尽管如此”等某些词来进行更微妙的分析,这些词可以软化早期的积极和消极的词。它可以变得随心所欲,但任何算法都应始终根据真实情绪进行测试以判断其可靠性,并随着时间的推移使用更多数据/反馈进行调整/改进。人工智能可能会在这一领域产生重大影响。
但我要推荐的一件事是,不仅要捕捉每条评论的“平均”情绪,还要捕捉评论中情绪的差异。也就是说,评论的整体衡量情绪有多模棱两可或混杂,因为这已经表明了它的可靠性。