我有一个用于情绪分析的帖子数据集,标记为 -1(负面)、1(正面)或 0(中性)。
所以我想知道我应该如何处理它。这些是我的想法:
- 制作多类分类器:我尝试使用随机森林,结果非常正确;但是,我有一定数量的正面负面,反之亦然;我宁愿错误地保持中立。
- 做一个二元分类器,但是在预测的时候,如果概率太平衡,就返回中性。但是,在我看来,我不使用中性数据——这不是浪费数据吗?也许使用 OneVsAll 会更好?
- 在输出端制作一个带有 tanh 神经元的感知器/神经网络;但我不知道这里可以使用什么好的损失函数。
您知道是否有任何理论上/实践上更好的方法?