排序数据的分位数的样本均值是真实均值的无偏估计吗?

机器算法验证 序数数据 样本 分位数 相对分布
2022-04-04 20:11:00

在研究收入不平等时,很常见的是查看样本的十分位数或五分位数的样本均值,并假设样本均值是真实均值的良好估计值。在这种情况下,“十分位数”和“五分位数”通常不是指断点,而是指除以断点的观测值集。

假设观察到的收入值有误差,并且误差,或者更可能是百分比误差,与真实值无关。

  • 样本分位数的平均值,例如最高十分位数,是总体平均值的无偏估计吗?我知道,对于一些细峰分布(例如,帕累托),样本均值低估了总体均值。我的问题不是指这个,而是指排序过程可能引起的任何偏差,因为对包括误差在内的观察值进行排序,而不是对真实值进行排序。

  • 我的直觉是,最高十分位数/五分位数的样本平均值会向上偏差,因为正错误会被排序,反之最低。例如,在我看来,如果收入不是负数但观察到的误差是正常的,那么大样本将包含一些负值,并且足够精细的分位数会将这些负值聚集到具有负均值的最低组中,证明偏差,因为真实均值必须为正。这是真的?

  • 如果手段有偏差,有什么好的方法可以纠正这种偏差吗?我认为误差对真实值的独立性不会延续到误差与观察值的独立性(包括误差)是否正确?如果是这样,是否有一种简单的方法至少可以描述并在理想情况下纠正这种依赖关系?

  • 一个常用的不平等指数是收入最高的五分之一或十分位数的收入平均值与最低收入的平均值之比。如果这些均值有偏差,并且偏差得到纠正,那么得到的比率是否会是真实比率的无偏估计?

1个回答

对于某些分布,由于测量误差而存在正偏差。如果您假设噪声的平均值,那么如果您从前十分位的人中抽样,他们的平均测量收入将是前十分位的平均收入。但是,您的样本的前十分位将包括一些从前十分位流离失所的人。被错误纳入的人口与被迁移人口的测量收入之间的差异总是非负的,其平均值表明来自该误差源的偏差。0

对于某些分布,由于采样存在负偏差。我认为这是一种罕见的情况,基于对收入分布和噪声分布的一些假设,您可能可以忽略它。这是一个表现出这种负偏差的人为分布:假设的人口有工作和单位的收入,而其他所有人都失业,收入为,并且没有噪音。的平均收入为,但您的样本中的就业率有可能低于,因此样本前十分位的预期收入小于,因此偏差为消极的。11%1010%110%1

如果您想对偏差的大小进行大致估计,您可以根据适合您的样本和噪声模型的分布进行蒙特卡罗模拟。可能有更准确的技术,但这应该很快。