我正在训练一个分类器(例如,动物),并且由于许多类别过于相似(例如,昆虫),我将一些类别组合在一起(例如,将虫子和蚊子归为昆虫)。然后,我将训练一个分类器来区分不同的昆虫。
我如何评估两者的性能?
假设第一级的['cat', 'dog', 'insects']
准确率为 90%
第二级['mosquito', 'bug']
准确率80%
总体准确度如何?
我正在训练一个分类器(例如,动物),并且由于许多类别过于相似(例如,昆虫),我将一些类别组合在一起(例如,将虫子和蚊子归为昆虫)。然后,我将训练一个分类器来区分不同的昆虫。
我如何评估两者的性能?
假设第一级的['cat', 'dog', 'insects']
准确率为 90%
第二级['mosquito', 'bug']
准确率80%
总体准确度如何?
首先请注意,如果类之间存在一些不平衡,准确性并不是一个很好的性能衡量标准。微观或宏观 F1 分数提供更多信息。
任何整体性能度量都可以通过获取完整的实例集来获得,只考虑每个实例的最终预测标签与真实标签。从那里可以通过通常的方式获得混淆矩阵。中间水平(例如“昆虫”)无关紧要。在准确性的情况下,您只需要计算每个实例的真实标签是否与最终预测的标签相同。