对于两个分类器h1和h2,我将精度、召回率和 F1 分数作为百分比(以及它们测试的原始标记数据集)。如果我可以访问每个分类器分类正确/错误的样本,我将能够进行例如 McNemar 检验来评估显着性,但不幸的是我没有。
理想情况下,我希望能够谈谈 h2 获得的结果的重要性,即h2是否比h1有显着改进。我无法做到这一点,还是仅使用精度/召回/F1 和标记数据集我可以说些什么?
对于两个分类器h1和h2,我将精度、召回率和 F1 分数作为百分比(以及它们测试的原始标记数据集)。如果我可以访问每个分类器分类正确/错误的样本,我将能够进行例如 McNemar 检验来评估显着性,但不幸的是我没有。
理想情况下,我希望能够谈谈 h2 获得的结果的重要性,即h2是否比h1有显着改进。我无法做到这一点,还是仅使用精度/召回/F1 和标记数据集我可以说些什么?
如果您只有两个系统/分类器的 P/R/F1 分数,则无法测试两者之间的差异是否具有统计显着性。正如您所建议的,对于 McNemar 的测试,您需要两个系统的预测。
如果您有其他标记数据和两个系统的实现,您可以在数据上测试那些(洗牌和 5 或 10 倍交叉验证多次),以便您可以执行统计测试。
对于如何比较文本域中的不同分类器,您有不同的选择。但是,您将需要每个类或每个文档的质量级别。你可以查看这篇关于重新检查文本分类方法的论文。