我有一个模型可以预测推文的情绪。是否有任何标准程序来评估这种模型的输出?
我可以对输出进行采样,计算出哪些是手动正确预测的,并计算真假阳性和阴性,但有更好的方法吗?
我知道测试和训练集以及 AUROC 和 AUPRC 等指标,它们根据已知数据评估模型,但是当我们不知道我们预测的实际值时,我对之后的步骤很感兴趣。我想我可以使用相同的指标,但一切都需要手工完成。
我有一个模型可以预测推文的情绪。是否有任何标准程序来评估这种模型的输出?
我可以对输出进行采样,计算出哪些是手动正确预测的,并计算真假阳性和阴性,但有更好的方法吗?
我知道测试和训练集以及 AUROC 和 AUPRC 等指标,它们根据已知数据评估模型,但是当我们不知道我们预测的实际值时,我对之后的步骤很感兴趣。我想我可以使用相同的指标,但一切都需要手工完成。
有很多方法可以评估 ML 模型的性能。您提到了 AUROC 和 AUPRC。通常,您从混淆矩阵开始并得出诸如灵敏度、准确性、召回率、精度等指标。您可以在这里看到它们的一个很好的轮廓。
看来您要问的是确定情绪分类模型有多好的捷径,但没有任何没有标记的测试数据。您可以手动执行此操作,也可以在世界上找到一个测试集,最好是众所周知且有文档且符合您的目标的测试集。我建议您阅读 Neil Slater 在https://datascience.stackexchange.com/questions/12226/how-do-i-assess-which-sentiment-classifier-is-best-for-my-project/12228上的回答。他就情感分析分类的主观性给出了一些很好的建议,并指出了一个标记的推文数据集,您可以使用它来测试您的分类器。
我还发现了这个 Kaggle 比赛,它有一个可能对你有帮助的测试集:Angry Tweets