我应该根据微观平均还是宏观平均评估措施做出决定?

机器算法验证 机器学习 交叉验证
2022-02-15 02:14:58

我使用相同的数据集对不同的二元分类算法进行了 10 倍交叉验证,并收到了微观和宏观平均结果。应该提到的是,这是一个多标签分类问题。

在我的例子中,真阴性和真阳性的权重是相等的。这意味着正确预测真阴性与正确预测真阳性同样重要。

微观平均指标低于宏观平均指标。以下是神经网络和支持向量机的结果:

在此处输入图像描述

我还使用另一种算法对同一数据集进行了百分比拆分测试。结果是:

在此处输入图像描述

我更愿意将百分比分割测试与宏观平均结果进行比较,但这公平吗?我不相信宏观平均结果是有偏差的,因为真阳性和真阴性的权重相等,但话说回来,我想知道这是否与比较苹果和橙子一样?

更新

根据评论,我将展示如何计算微观和宏观平均值。

我有 144 个要预测的标签(与特征或属性相同)。计算每个标签的精度、召回率和 F-Measure。

---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
   ?   |    ?   |    ?   |   ?    | .. |     ?
---------------------------------------------------

考虑基于真阳性 (tp)、真阴性 (tn)、假阳性 (fp) 和假阴性 (fn) 计算的二元评估度量 B(tp, tn, fp, fn)。特定度量的宏观和微观平均值可以计算如下:

在此处输入图像描述

在此处输入图像描述

使用这些公式,我们可以如下计算微观和宏观平均值:

在此处输入图像描述

在此处输入图像描述

因此,微平均测量会添加所有 tp、fp 和 fn(对于每个标签),然后进行新的二进制评估。宏观平均度量将所有度量(Precision、Recall 或 F-Measure)相加并除以标签数量,这更像是一个平均值。

现在,问题是使用哪一个?

1个回答

如果您认为所有标签的大小或多或少相同(实例数量大致相同),请使用 any。

如果您认为标签的实例比其他标签多,并且您想将指标偏向人口最多的标签,请使用micromedia

如果您认为标签的实例比其他标签多,并且如果您想将指标偏向人口最少的标签(或者至少您不想偏向人口最多的标签),请使用macromedia

如果微媒体结果显着低于宏媒体结果,则意味着您在填充最多的标签中有一些严重的错误分类,而您的较小标签可能被正确分类。如果媒体结果明显低于微媒体结果,则意味着您的较小标签分类不佳,而较大标签可能被正确分类。

如果您不确定该怎么做,请继续比较微观和宏观平均水平 :)

这是一篇关于这个主题的好论文。