训练有素的情绪分析器模型的置信度得分

数据挖掘 机器学习 scikit-学习 nlp 准确性 情绪分析
2022-02-27 02:14:58

我已经使用 SciKit-learn 和自定义数据训练了一个基于文本的情感分析模型。我已经准备好模型,它可以很好地预测一个类的文本(正面或负面或中性)。我已经达到了超过85%的测试准确率和大约80%的交叉验证准确率。

但是我想将我的每个预测附加到我提供给分类器的新示例数据/文本的置信度分数。除了预测的类之外,这只是我想显示/输出的一个额外参数。

我不知道如何实现这一点,如果有人能提供一些有用的见解,我将非常感激。

1个回答

经过进一步的研究,我自己解决了这个问题。我将在这里简要描述我的方法。干杯!

这个想法是找到置信区间,在我的例子中,这也与找到与决策边界/超平面的距离相同。

如果您使用的是 Scikit Learn API,则有一个名为predict_proba()的方法可用于多种分类模型,例如 Logistic 回归、SVM、随机森林等。如果您的分类器没有提供,您可以使用CalibratedClassifierCV将其包装sklearn.calibration中找到,然后使用上述方法计算与决策边界的距离。

如果您正在寻找自定义的深入实施,这里有一些可能有帮助的论文/参考资料。