我想知道如何从头开始创建情绪模型。我有我的数据,文本列表,没有关于情绪的标签。
Author Quotes
Dan Brown “Everything is possible. The impossible just takes longer.”
Dan Brown “Great minds are always feared by lesser minds.”
Dan Brown “Men go to far greater lengths to avoid what they fear than to obtain what they desire.”
Dan Brown “Google' is not a synonym for 'research'.
等等...
我也有 20000 条类似上述的引用,来自其他作者。我的数据集是我拥有的唯一数据集,因此我需要分成训练集(80%)和测试集(20%)。我应该在我的训练集上工作以建立“情绪”的词汇。我的想法是清理文本删除停用词,除了否定词(如不,不,...)。然后寻找形容词并手动为它们分配分数(?)。完成此操作后,我还应该考虑 n-gram,尤其是带有负停用词的情况,以便创建一个也可以考虑到这一点的小型词典。但是我不知道这是否是正确的方法,如果它是疯狂的......有没有办法从头开始构建情绪模型?“机器”如何从中学习?
我需要从头开始开发一个模型,因为我想分析其他语言(如意大利语或西班牙语)的文本,而 Python 中没有模型(至少不是好的模型)可以做到这一点。