精确率和召回率混淆矩阵

数据挖掘 机器学习 评估 混淆矩阵 分数
2022-03-09 06:22:16

我想知道,通过单独的召回和精度混淆矩阵来传达信息是否合适?我最近看到一篇报告了以下分数的论文。我很困惑,无法解释它们。这是学术界的普遍标准吗?

编辑1:该论文与活动识别有关。

西欧

3个回答

不是。根据定义,混淆矩阵是每个主题的真实类别和预测类别的列表。我见过相对计数,但它们不是标准的。

根据维基百科:

矩阵的每一行代表预测类中的实例,而每一列代表实际类中的实例(反之亦然)。

上面列出的矩阵不这样做,所以它们不是混淆矩阵。我不熟悉这种格式,我认为它不是学术标准。我不确定如何解释它们,从这个意义上说,它们是令人困惑的矩阵

PS:您可以从混淆矩阵中获得准确率和召回率。

根据我的经验,这是非常不寻常的,我同意这很难解释。

特定标签的精度或召回率只有一个值,但由于这些表显示为混淆矩阵,因此值不能是精度/召回率。

我注意到矩阵显示的百分比对于“召回”行的每行总和为 100,对于“精确”行每列的总和为 100。基于这一观察,我的猜测是这些值显示:

  • 在“召回”表中,类别 X(列)预测的实例在类别 Y(行)的真实实例中的百分比。示例:12.23% 的真实标签为“carry”的实例被标记为“walk”。
  • 在“精度”表中,在预测为 Y 类(列)的实例中,真正属于 X 类(行)的实例的百分比。示例:预测为“walk”的实例中有 6.87% 实际上属于“carry”类。

在我看来,除非有很好的理由,否则应该避免这种非标准的表示。在这种情况下,常规的混淆矩阵会更清晰。

我想知道,通过单独的召回和精度混淆矩阵来传达信息是否合适?

通常与否,这可能非常重要。它们传达不同的东西。因此,在医学目的中,或者通常在不同的背景下,某些类别的某些召回值可能非常有趣和重要,因为我们不会犯这种错误。因此作者可能想指出这一点。