为什么我们不使用加权算术平均值而不是调和平均值?

机器算法验证 机器学习 蒙特卡洛 精确召回 调和平均
2022-02-27 22:26:49

我想知道使用调和平均值(例如计算 F 度量)的内在价值是什么,而不是结合精度和召回率的加权算术平均值?我在想加权算术平均值可以起到调和平均的作用,还是我错过了什么?

2个回答

通常,当尝试平均速率时,首选谐波平均值,而不是整数。在 F1 度量的情况下,调和平均值会惩罚非常小的精度或召回率,而未加权算术平均值则不会。想象一下平均 100% 和 0%:算术平均值为 50%,谐波平均值为 0%。调和平均要求准确率和召回率都很高。

此外,当准确率和召回率接近时,调和平均值将接近算术平均值。示例:95% 和 90% 的调和平均值为 92.4%,而算术平均值为 92.5%。

这是否是一个理想的属性可能取决于您的用例,但通常它被认为是好的。

最后,请注意,正如@whuber 在评论中所说,调和平均值确实是加权算术平均值。

当算术平均值没有期望或没有方差时,调和平均值可以方便地替代算术平均值。确实可能是不存在或者是无限的,而存在。例如,密度为的帕累托分布没有有限当时的期望,这意味着算术平均值具有无限期望,而这意味着调和平均值具有有限期望。E[X]E[1/X]

f(x)=αx0αxα+1Ixx0
α1
E[1/X]=x0αx0αxα+2dx=αx0α(α+1)x0α+1=α(α+1)x0

相反,有些分布的调和平均值没有期望,例如分布还有更多没有差异的。Be(α,β)α1

基于贝叶斯后验恒等式其中,是任意密度,是先验,是似然,边际,正如在 X 验证的另一个问题上所讨论的那样,我评论了使用 Radford Neal(多伦多大学)称之为有史以来最差的蒙特卡洛估计器的危险。(我还在我的博客上写了几篇关于该主题的文章。)

E[φ(θ)π(θ)L(θ|x)|x]=1m(x)
φ()π()L(|x)m()