我见过的大多数混淆矩阵都包含每个单元格中的实例数。每个单元格中实例百分比的混淆矩阵不是更容易阅读吗?这种方法是错误的还是违反了一些关于混淆矩阵的不成文规则?
这样的混淆矩阵将如下所示,其中 10 个类别标签中的每一个都占数据集的 10%,总数为 100%。9.06% 的数据集属于 1 类并被分配到 1 类。因此 90.60% 的 1 类实例被正确分类。
我见过的大多数混淆矩阵都包含每个单元格中的实例数。每个单元格中实例百分比的混淆矩阵不是更容易阅读吗?这种方法是错误的还是违反了一些关于混淆矩阵的不成文规则?
这样的混淆矩阵将如下所示,其中 10 个类别标签中的每一个都占数据集的 10%,总数为 100%。9.06% 的数据集属于 1 类并被分配到 1 类。因此 90.60% 的 1 类实例被正确分类。
如果您的类之间的分布是平坦的(自然地或故意以这种方式采样),则以百分比为单位的混淆矩阵将是合适的。如果不是这种情况,这样的混淆矩阵可能会导致严重的混淆。
两者兼有很有用:总体实例数(以查看偏差)和从平坦分布采样的数据的百分比。