鉴于今天是闰日,有人知道闰日出生的概率吗?
闰日出生的概率?
要使用统计数据准确预测该概率,了解出生地点会很有帮助。
此页面http://chmullig.com/2012/06/births-by-day-of-year/有一个图表显示每天出生人数的一个子集(将 29 日乘以 4,这是不正确的,也是不可取的对于这个问题,但它也链接到原始数据,并粗略地表明你可以期待什么)在美国。我认为这条曲线不适用于其他国家,尤其是其他大陆。特别是南半球和赤道地区可能会从这些结果中得到显着的推导——假设气候是一个决定性因素。
此外,还有“选择性生育”的问题(由http://bmjopen.bmj.com/content/3/8/e002920.full的作者提到)——在全球较贫穷的地区,我预计会有不同的分娩分布,仅仅是因为(非紧急)剖腹产或引产比发达国家少。这扭曲了出生的最终分布。
使用美国的数据,假设 2 月 29 日有大约 7100 万出生(粗略的图形平均值 * 366)和 46.000 出生,不校正数据中闰年的分布,因为没有指出精确的时期,我得出的概率为约 0.000648。这略低于人们在出生率分布平坦的情况下所期望的值,因此与图表给出的总体印象一致。
我将把这个粗略估计的显着性测试留给有动力的读者。但考虑到 29 日(尽管未经校正 - 2000 年在数据中注入了低于平均水平的偏差)即使对于已经很低的 2 月标准得分也很低,我假设相对较高的信心可以拒绝平等分布的零假设。
当然。有关更详细的说明,请参见此处: http ://www.public.iastate.edu/~mlamias/LeapYear.pdf 。
但基本上作者得出结论,“2 千年中有 485 个闰年。因此,在 2 千年中,总共有天。其中,2 月 29 日发生在其中 485 个(闰年),所以概率是 "
我认为这个问题的答案只能是经验性的。如果不考虑生日选择现象、季节性等,任何理论上的答案都是有缺陷的。这些事情在理论上是不可能处理的。
出于隐私原因,在美国很难找到生日数据。这里有一个匿名数据集。它来自美国的保险申请。与其他报告的不同之处,例如一篇流行的、经常被引用的《纽约时报》文章,它按日期列出了出生频率,而不是简单地对一年中的天数进行排名。弱点当然是抽样偏差,因为它来自保险:没有保险的人不包括在内等。
根据数据,2 月 29 日共有 481040 人出生 325 人。根据Roy Murphy的说法,样本跨度为 1981 年至 1994 年。其中包括总共 14 年的 3 个闰年。如果不进行任何调整,1981 年至 1994 年间出生于 2 月 29 日的概率为 0.0675%。
您可以通过考虑闰年的频率来调整概率,该频率接近 1/4(虽然不完全是),例如通过将此数字乘以来得出 0.079% 的估计值。在这里,闰年 2 月 29 日出生的条件概率通过样本中闰年 的频率 其中是样本中的年数,是出生的总频率。
通常闰年的概率是,因此 2 月 29 日出生的长期平均概率是:
假设您出生在闰年, 您可能对 2 月 29 日出生的条件概率
因此,和之间的联系基于一些假设,例如,在任何给定年份出生的概率是一致的,并且不会改变。
当然,这个讨论是以美国为中心的。谁知道其他国家的模式是什么。
更新:我们自动假设 OP 是公历。如果您考虑不同的日历,例如农历回历,它会变得更加有趣,闰年是每 30 年左右。
更新 2:
令人惊讶的是,对于这个样本,估计概率导致 2 月 29 日生日的预期发生:。这仅低于 1 月 1 日和 12 月 25 日,这与 NYT 的上述排名一致!他们没有描述数据的来源,仅提及,但它要么相同,要么发现是可靠的。Amitabh Chandra, Harvard University
现在,公历中非常特殊的日子有多大可能:1 月 1 日、12 月 25 日和 Deb 29 会随机成为最受欢迎的生日?我说这不太可能是随机发生的。因此,查看其他日历(例如回历)中发生的事情会更有趣。
更新 3:
请注意,都高于简单的理论估计:
更新 4:
Ben Millwood 评论说,一年中出生日期的分布是不均匀的。我们可以测试这个说法吗?使用我的数据集,我们可以在理论分布上运行检验,假设分布是均匀的。结果是拒绝,即分布似乎不均匀。
理论分布是这样构建的。我们假设出生频率在所有日历日内是一致的,即在 14 年内跨越天。然后我们将天数汇总为一年中的天数,即 366。显然只遇到了 3 个闰日和 14 个非闰日。下面是我的 MATLAB 代码和分布图,用于比较理论和经验。
d=[0101 1482
...
1231 1352];
%%
tc = sum(d(:,2)); % total obs
idL = 60; % index of Feb 29
% theor frequency, assuming uniform
ny = 1994 - 1981 + 1; % num of years
nL = 3; % # of leap years: 1984, 1988, 1992
nd = 365*ny + nL; % total # of days
fc = tc/nd; % expected freq for calendar date in sample
td = ones(366,1)*fc*ny; % roll the dates into day of year
td(idL) = fc*nL;
fprintf(1,'non-leap day expected freq: %f\n',td(end))
fprintf(1,'leap day expected freq: %f\n',td(idL))
fprintf(1,'non-leap day average freq: %f\n',mean(d([1:idL-1 idL+1:end],2)))
fprintf(1,'non-leap day freq std dev: %f\n',std(d([1:idL-1 idL+1:end],2)))
fprintf(1,'leap day observed freq: %f\n',d(idL,2))
% plots
bar(d(:,2))
hold on
plot(td,'r')
legend('empirical','theoretical')
title('Distribution of birth dates 1981-1994')
set(gca,'XTick',1:30:366)
set(gca,'XTickLabels',[num2str(floor(d(1:30:366,1)/100)) repmat('/',13,1) num2str(rem(d(1:30:366,1),100))])
grid on
% chi^2 test
[h p]=chi2gof(d(:,2),'Expected',td)
输出:
non-leap day expected freq: 1317.144534
leap day expected freq: 282.245257
non-leap day average freq: 1317.027397
non-leap day freq std dev: 69.960227
leap day observed freq: 325.000000
h =
1
p =
0
我一直以来最喜欢的一本书的封面提供了一些高度相关的证据来反对统一分配出生日期的假设。具体来说,自 1970 年以来美国的出生率呈现出几种相互叠加的趋势:长期的、数十年的趋势、非周期性的趋势、星期几的趋势、一年中的某一天趋势、假期趋势(因为程序像剖宫产可以让一个人有效地安排生日,而医生通常不会在假期这样做)。结果是,在一年中随机选择的一天出生的概率并不统一,而且由于出生率在不同年份之间存在差异,因此并非所有年份的可能性都相同。
这也证明了 Asksal 的解决方案虽然是一个非常有力的竞争者,但也是不完整的。少数闰日将被这里所有的影响“污染”,因此 Asksal 的估计也(相当偶然地)捕捉到了星期几和长期趋势以及2 月 29 日的影响影响。您的问题没有明确定义哪些影响是合适的,哪些是不合适的。
而且这种分析只与美国有关,美国的人口趋势可能与其他国家或人口大不相同。例如,日本的出生率几十年来一直在下降。中国的出生率由国家控制,对其国家的性别构成以及后代的出生率产生了一些影响。
同样,Gelman 的分析仅描述了最近几十年的情况,不一定清楚这是否是您问题感兴趣的时代。
对于那些对这类事情感到兴奋的人,封面中的材料将在高斯过程一章中详细讨论。