二进制 + 中性分类

数据挖掘 神经网络 分类 多类分类 情绪分析
2022-02-23 14:34:17

我有一个用于情绪分析的帖子数据集,标记为 -1(负面)、1(正面)或 0(中性)。

所以我想知道我应该如何处理它。这些是我的想法:

  • 制作多类分类器:我尝试使用随机森林,结果非常正确;但是,我有一定数量的正面负面,反之亦然;我宁愿错误地保持中立。
  • 做一个二元分类器,但是在预测的时候,如果概率太平衡,就返回中性。但是,在我看来,我不使用中性数据——这不是浪费数据吗?也许使用 OneVsAll 会更好?
  • 在输出端制作一个带有 tanh 神经元的感知器/神经网络;但我不知道这里可以使用什么好的损失函数。

您知道是否有任何理论上/实践上更好的方法?

1个回答

情绪检测可能是模棱两可的,有时是不明确的。因此,只有在您知道您的数据已被清晰标记、平衡且经过良好预处理后,我才会继续重新建模。

通过二元分类器的阈值检测中性点很有趣,但不会给您带来太大的提升,因为中性点不一定是“不存在”或“取消”正/负信号。

也就是说,执行这个问题的“频谱性质”仍然有好处您可以学习类似于OneVsOneClassifier但不是多数投票的自定义合奏,它可以应用规则来消除歧义和矛盾。这样,大多数错误分类的正面或负面至少会减少错误。您可以为此使用任何基本估计器,包括感知器神经网络。