表情符号的情绪数据

数据挖掘 机器学习 分类 解析
2021-09-29 02:45:55

为了进行实验,我们希望使用嵌入在许多推文中的表情符号作为基本事实/训练数据,以进行简单的定量情绪分析。推文通常过于非结构化,以至于 NLP 无法正常工作。

无论如何,Unicode 6.0 中有 722 个 Emoji,可能 Unicode 7.0 中还会添加另外 250 个。

是否有包含情绪注释的数据库(例如 SentiWordNet)?

(请注意,SentiWordNet 也确实允许模棱两可的含义。考虑例如funny,这不仅仅是积极的:“这味道很有趣”可能不是积极的......;-)例如同样适用。但我不认为这更难表情符号比普通单词...)

此外,如果您有使用它们进行情绪分析的经验,我很想听听。

2个回答

总共 972 个表情符号并没有那么大,不能手动标记它们,但我怀疑它们是否能作为一个很好的基本事实。像 Twitter 这样的来源充满了讽刺、讽刺和其他棘手的设置,其中情感符号(如表情符号或表情符号)意味着与正常解释不同的东西。例如,有人可能会写“xxx欺骗了他们的客户,现在他们自己被欺骗了!哈哈哈!:D”。这绝对是负面评论,但作者很高兴看到xxx公司陷入困境,因此添加了正面表情。这些情况并不常见,但绝对不适合基本事实。

更常见的方法是使用表情符号作为收集实际数据集的种子例如,在本文中,作者使用表情符号和情感哈希标签来获取对进一步分类有用的词库。

我发现这个Github repo很有用(一个好的开始)。以负五(负)和正五(正)之间的整数表示价的表情符号列表。

查看支持的 unicode-emojis 列表。

请注意,由于同时用于正面和负面情绪,某些表情符号可能会收到令人困惑的极性,例如stuck_out_tongue_closed_eyes (0)。