在研究收入不平等时,很常见的是查看样本的十分位数或五分位数的样本均值,并假设样本均值是真实均值的良好估计值。在这种情况下,“十分位数”和“五分位数”通常不是指断点,而是指除以断点的观测值集。
假设观察到的收入值有误差,并且误差,或者更可能是百分比误差,与真实值无关。
样本分位数的平均值,例如最高十分位数,是总体平均值的无偏估计吗?我知道,对于一些细峰分布(例如,帕累托),样本均值低估了总体均值。我的问题不是指这个,而是指排序过程可能引起的任何偏差,因为对包括误差在内的观察值进行排序,而不是对真实值进行排序。
我的直觉是,最高十分位数/五分位数的样本平均值会向上偏差,因为正错误会被排序,反之最低。例如,在我看来,如果收入不是负数但观察到的误差是正常的,那么大样本将包含一些负值,并且足够精细的分位数会将这些负值聚集到具有负均值的最低组中,证明偏差,因为真实均值必须为正。这是真的?
如果手段有偏差,有什么好的方法可以纠正这种偏差吗?我认为误差对真实值的独立性不会延续到误差与观察值的独立性(包括误差)是否正确?如果是这样,是否有一种简单的方法至少可以描述并在理想情况下纠正这种依赖关系?
一个常用的不平等指数是收入最高的五分之一或十分位数的收入平均值与最低收入的平均值之比。如果这些均值有偏差,并且偏差得到纠正,那么得到的比率是否会是真实比率的无偏估计?