从头开始构建情感模型

数据挖掘 机器学习 Python 文本挖掘 数据科学模型 情绪分析
2021-10-07 05:36:33

我想知道如何从头开始创建情绪模型。我有我的数据,文本列表,没有关于情绪的标签。

Author     Quotes 
Dan Brown  “Everything is possible. The impossible just takes longer.” 
Dan Brown  “Great minds are always feared by lesser minds.” 
Dan Brown   “Men go to far greater lengths to avoid what they fear than to obtain what they desire.” 
Dan Brown   “Google' is not a synonym for 'research'.

等等...

我也有 20000 条类似上述的引用,来自其他作者。我的数据集是我拥有的唯一数据集,因此我需要分成训练集(80%)和测试集(20%)。我应该在我的训练集上工作以建立“情绪”的词汇。我的想法是清理文本删除停用词,除了否定词(如不,不,...)。然后寻找形容词并手动为它们分配分数(?)。完成此操作后,我还应该考虑 n-gram,尤其是带有负停用词的情况,以便创建一个也可以考虑到这一点的小型词典。但是我不知道这是否是正确的方法,如果它是疯狂的......有没有办法从头开始构建情绪模型?“机器”如何从中学习?

我需要从头开始开发一个模型,因为我想分析其他语言(如意大利语或西班牙语)的文本,而 Python 中没有模型(至少不是好的模型)可以做到这一点。

2个回答

您所描述的确实是构建情感分析系统的传统方法,所以我认为这对我来说是一种合理的方法。

我根本不了解情绪分析任务,但我认为值得研究最先进的技术有几个原因:

  • 可能有更新、更好的方法
  • 可能有您感兴趣的语言的数据集,如果有的话,可以为您节省大量时间。检查是否有任何关于此的共享任务,它们通常提供带注释的数据集。

我建议首先使用主题模型(如潜在狄利克雷分配)并为主题而不是单个单词分配分值。