数据挖掘 - 精确率和召回率混淆矩阵 - 吾爱随笔录

数据挖掘机器学习评估混淆矩阵分数

2022-03-09 06:22:16

我想知道，通过单独的召回和精度混淆矩阵来传达信息是否合适？我最近看到一篇报告了以下分数的论文。我很困惑，无法解释它们。这是学术界的普遍标准吗？

编辑1：该论文与活动识别有关。

3个回答

不是。根据定义，混淆矩阵是每个主题的真实类别和预测类别的列表。我见过相对计数，但它们不是标准的。

矩阵的每一行代表预测类中的实例，而每一列代表实际类中的实例（反之亦然）。

上面列出的矩阵不这样做，所以它们不是混淆矩阵。我不熟悉这种格式，我认为它不是学术标准。我不确定如何解释它们，从这个意义上说，它们是令人困惑的矩阵。

PS：您可以从混淆矩阵中获得准确率和召回率。

根据我的经验，这是非常不寻常的，我同意这很难解释。

特定标签的精度或召回率只有一个值，但由于这些表显示为混淆矩阵，因此值不能是精度/召回率。

我注意到矩阵显示的百分比对于“召回”行的每行总和为 100，对于“精确”行每列的总和为 100。基于这一观察，我的猜测是这些值显示：

在“召回”表中，类别 X（列）预测的实例在类别 Y（行）的真实实例中的百分比。示例：12.23% 的真实标签为“carry”的实例被标记为“walk”。
在“精度”表中，在预测为 Y 类（列）的实例中，真正属于 X 类（行）的实例的百分比。示例：预测为“walk”的实例中有 6.87% 实际上属于“carry”类。

在我看来，除非有很好的理由，否则应该避免这种非标准的表示。在这种情况下，常规的混淆矩阵会更清晰。

我想知道，通过单独的召回和精度混淆矩阵来传达信息是否合适？

通常与否，这可能非常重要。它们传达不同的东西。因此，在医学目的中，或者通常在不同的背景下，某些类别的某些召回值可能非常有趣和重要，因为我们不会犯这种错误。因此作者可能想指出这一点。

其它你可能感兴趣的问题