我有一个包含两列 X 和 Y 的表。每一行代表一个实例的聚合统计信息。我引入了一个新列 Z = X / Y,这是关于实例的另一个重要信息。现在,我想呈现实例的整体统计数据(即平均值)。
这里我有一个问题:我应该在 Mean(X / Y) 和 Mean(X) / Mean(Y) 中使用哪一个来表示 Z 的平均值?简单地说,它可能是 Mean(X/Y),因为 Z=X/Y。
但是,我有两个担忧:
- 平均值(Y)*平均值(Z)!=平均值(X);这让人们很难相信这些数字。
- Mean(X/Y) 和 Mean(X)/Mean(Y) 之间的差异是显着的。这些差异本身是否在统计学上说明了一些有意义的事情?
// 我更新了我的案例。
该表将用户记录保存在系统上。用户可以向其上传数据。
- X:上传次数
- Y:上传量
- Z:Y/X;每次上传量
我想做的是模拟这样一个系统,其工作负载与真实相似。
我只需使用 X' = Mean(X) 和 Z' = Mean(Z) 创建 N 个用户实例(N 不能太大)。
所以在模拟过程中,每个用户上传总体积数据:(X')*(Z')。
然后,当我汇总模拟结果时,我最终得到:Mean(Y') != Mean(Y)。