平均值(X/Y)与平均值(X)/平均值(Y)的用法

机器算法验证 解释 公制
2022-03-28 03:58:03

我有一个包含两列 X 和 Y 的表。每一行代表一个实例的聚合统计信息。我引入了一个新列 Z = X / Y,这是关于实例的另一个重要信息。现在,我想呈现实例的整体统计数据(即平均值)。

这里我有一个问题:我应该在 Mean(X / Y) 和 Mean(X) / Mean(Y) 中使用哪一个来表示 Z 的平均值?简单地说,它可能是 Mean(X/Y),因为 Z=X/Y。

但是,我有两个担忧:

  • 平均值(Y)*平均值(Z)!=平均值(X);这让人们很难相信这些数字。
  • Mean(X/Y) 和 Mean(X)/Mean(Y) 之间的差异是显着的。这些差异本身是否在统计学上说明了一些有意义的事情?

// 我更新了我的案例。

该表将用户记录保存在系统上。用户可以向其上传数据。

  • X:上传次数
  • Y:上传量
  • Z:Y/X;每次上传量

我想做的是模拟这样一个系统,其工作负载与真实相似。

我只需使用 X' = Mean(X) 和 Z' = Mean(Z) 创建 N 个用户实例(N 不能太大)。

所以在模拟过程中,每个用户上传总体积数据:(X')*(Z')。

然后,当我汇总模拟结果时,我最终得到:Mean(Y') != Mean(Y)。

2个回答

如果 X/Y 是有用的度量并且平均值是总结它的有用方式,则应提供平均值 (X/Y)。根据Jensen 不等式,我们知道平均值的比率永远不会等于比率的平均值,除非在某些特殊情况下。

Z=Y/X可能对个人用户有意义,因为他们每次上传的个人平均数量,但Mean(Y/X)由于某些用户比其他用户更多地使用该系统,因此总体上看起来没有意义。

如果你采用加权平均Z=Y/X考虑到这一点,自然权重将是上传的数量X结果加权平均值将变成

Weighted Mean(Z)=Sum(X×Y/X)/Sum(X)=Sum(Y)/Sum(X)=Mean(Y)/Mean(X)
这也将是整个系统每次上传的总平均数量。

您的担忧是有道理的:使用后一种选择可能会更好。