一般评论:如果所有箱的并集是一个有限区间,您可以在某些假设下计算平均值,或者您可以在没有任何假设的情况下获得界限。一个常见的(尽管通常是站不住脚的)假设是垃圾箱内的一致性。如果箱子不宽,它仍然是一个有用的近似值。
使用开放的高端箱(75+),如果没有一些强有力的假设,您将无法计算平均值。探索平均估计对这些假设的敏感性将是有用的。
通常你可以计算一个中值category,这很简单,所以让我们从那里开始。
中位数:年龄中位数是“中间人”的年龄(如果有偶数,则中间两人之间的任何值 - 使用分箱数据,您希望这两个人在同一个分箱中;幸运的是,分箱边界很少见在它们之间,在这种情况下,任何一个 bin 都可以被视为中值 bin;在这种情况下,您可以选择边界本身作为中值)。
对于 107769 人,(107769 + 1)/2 = 53885-th 最老的人的年龄是中位年龄。
Agegroup Count cumsum(age$Count)
1 Under 5 6360 6360
2 5-9 6360 12720
3 10-14 10986 23706
4 15-17 5204 28910
5 18-24 7886 36796
6 25-34 9463 46259
7 35-44 17349 63608
8 45-54 18926 82534
9 55-64 13406 95940
10 65-74 6309 102249
11 75 and over 5520 107769
34岁及以下的有46259人,44岁以下的有63608人,因此中位年龄组为35-44岁。
您可以通过做出一些假设来进一步估计其中的年份 - 例如,如果您假设箱内的年龄分布均匀,则中位年龄将为 (53885-46259)/17349 = 43.96%该年龄组的年龄范围,这表明平均年龄约为 39.4 岁。但是,您需要评估该假设的合理性。接近模式,看起来(并且可能是)相当平滑的分布,粗略近似的假设可能不是那么糟糕]
有些书给出了计算中位数估计值的公式,这相当于我刚才所做的,例如这样的公式:中位数 =(其中是包含中位数的 bin 的下限,是该 bin 的宽度,是总人口, 是直到(结束前一个 bin),而是中值 bin 中的计数(频率),它的作用几乎相同(除了 (n+1)/2 与 n/2 之外,它是相同的)。L+w(n2−c)fLwncLf
平均值:平均值通常通过将数据视为发生在 bin 中心来计算。对于均值,这相当于假设数据在每个 bin 中均匀分布。
显然,这对没有上限的最后一个类别提出了问题。即使你强加了一个(“好吧,假设没有人活过 120”),中点仍然是对组内平均值的可怕估计。你可以做一些事情,比如假设分布与某些人口相似,并从生命表中获取估计值(许多国家提供生命表,这允许计算每个年龄的人活着的比例)。
你也可以简单地假设一些平均值(比如 80 或 85),然后看看它有多大的不同。来自一个西方国家(平均寿命比美国更长)的 9 岁(左右)数字表明 75 岁以上男性的平均年龄为 82.2 - 如果您无法获得合适的数字,我认为假设 82 和尝试 80 和 85 来了解对假设的敏感性是合理的。
(比这里描述的更复杂的假设是可能的,但不常用)