如何将部分置信区间相加以创建总置信区间?

机器算法验证 可能性 置信区间
2022-03-05 00:21:14

我有一个响应变量,当使用不同的解释变量计算时,它会获得不同的置信区间 (CI)。我想将响应变量的所有值相加并为总和创建一个 CI。

如果有人请帮助我从铁人三项中解决以下示例,我会理解该怎么做,其中时间(分钟)是响应变量,距离(公里)和纪律是解释变量:

  • 游泳 1.5 公里的 95% CI 是 40 到 50 分钟
  • 骑行 40 公里的 95% CI 是 60 到 80 分钟
  • 跑 10 公里的 95% CI 是 30 到 40 分钟

问:一个人完成 95% CI 的铁人三项需要多长时间?

[如果有任何区别,我假设学科之间的正态分布和独立性]

谢谢

2个回答

简而言之:

  • 将每个置信区间(45+70+35=150 分钟)的中心点之和作为置信区间的中心点。
  • 将每个置信区间的半径平方和的平方根作为区间半径52+102+52=12.25

因此,一个人在 137.75 到 162.25 分钟之间完成铁人三项的概率为 95%。无论如何,小心假设。

长篇:

我假设了学科之间的正态分布和独立性,尽管第一个假设作为粗略的近似可能是合理的,但第二个假设可能是错误的,因为我希望在一个学科中表现良好的人可能在其他学科中表现良好(例如,我希望自己在铁人三项的每个项目中都表现不佳)。

假设每个学科的时间是一个正态变量,总时间只是三个随机变量的总和,因此是正态分布的。和的方差也是三个变量的方差之和,由于区间半径与方差的平方根成正比,因此只需将每个区间的半径平方相加即可得到和变量的半径平方.

但是,请注意,每个学科的时间是独立的(可疑的)假设缩小了结果间隔 - 我会说,不切实际地缩小了它。

我们可以做出相反的假设,即各学科的时间是绝对相关的(也就是说,大致而言,40 分钟内游泳的人与 60 分钟内骑自行车和 30 分钟内跑步的人相同)。这种假设可能与独立的假设一样不切实际,但肯定不会更不切实际。

在这个假设下,间隔的半径只是总和,预计 95% 的运动员将在 130 到 170 分钟内完成铁人三项。

最后,我们应该期望实际区间在 [137.25,162.25] 和 [130,170] 之间(都是不切实际的极端情况),但要给出更准确的结果,我们需要(至少)知道相关性是什么在不同学科的时间之间。

在几年后查看答案后进行编辑:如果样本包括具有不同健康水平的人,我做出的不同学科的结果可能正相关的假设是合理的。但是,如果样本仅包括铁人三项总体水平相近的人——例如参加 2020 年奥运会的铁人三项运动员——学科之间的相关性可能为负相关。无论如何,由于假设负相关会产生更小的置信区间(甚至零长度区间),因此在缺乏相关信息的情况下,我会采取保守的假设,即相关性介于 0 和 1 之间。编辑结束。

编辑术语

正如 Whiber 在他的评论中指出的那样,目前尚不清楚问题中给出的间隔的含义是什么。虽然,答案是有效的,以与问题中的间隔相同的方式解释结果间隔。

问题间隔的两个合理含义是:

  • 每项运动平均值的置信区间。
  • 或包含每项运动 95% 参与者的时间的间隔。

尽管问题的措辞更适合第二个含义(因此我的回答中的措辞),但通常不将“置信区间”这个名称与这个含义一起使用。

但是,由于各个时间服从正态分布(根据问题中的假设),并且均值的估计也服从正态分布(如果样本量足够大或者我们继续坚持各个时间呈正态分布的假设),两种含义的区间算术相同,因此给出的结果对两种含义都成立。

佩雷给出了很好的答案。添加分布时会发生方差加起来。但是,在您的情况下,他将半径假定为标准偏差。但实际上是标准差的1.96倍。因此,您需要将半径(pere 的术语)除以 1.96(95% conf int),然后平方、求和并取平方根。