我使用相同的数据集对不同的二元分类算法进行了 10 倍交叉验证,并收到了微观和宏观平均结果。应该提到的是,这是一个多标签分类问题。
在我的例子中,真阴性和真阳性的权重是相等的。这意味着正确预测真阴性与正确预测真阳性同样重要。
微观平均指标低于宏观平均指标。以下是神经网络和支持向量机的结果:
我还使用另一种算法对同一数据集进行了百分比拆分测试。结果是:
我更愿意将百分比分割测试与宏观平均结果进行比较,但这公平吗?我不相信宏观平均结果是有偏差的,因为真阳性和真阴性的权重相等,但话说回来,我想知道这是否与比较苹果和橙子一样?
更新
根据评论,我将展示如何计算微观和宏观平均值。
我有 144 个要预测的标签(与特征或属性相同)。计算每个标签的精度、召回率和 F-Measure。
---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
? | ? | ? | ? | .. | ?
---------------------------------------------------
考虑基于真阳性 (tp)、真阴性 (tn)、假阳性 (fp) 和假阴性 (fn) 计算的二元评估度量 B(tp, tn, fp, fn)。特定度量的宏观和微观平均值可以计算如下:
使用这些公式,我们可以如下计算微观和宏观平均值:
因此,微平均测量会添加所有 tp、fp 和 fn(对于每个标签),然后进行新的二进制评估。宏观平均度量将所有度量(Precision、Recall 或 F-Measure)相加并除以标签数量,这更像是一个平均值。
现在,问题是使用哪一个?