将“80 人中有 1 人死于车祸”改写为“80 人中有 1 人死于车祸”是否错误?

机器算法验证 解释 风险
2022-01-20 06:18:07
  • 陈述一(S1):“每 80 人中就有一人死于车祸。”
  • 陈述二 (S2):“每 80 人中就有一人死于车祸。”

现在,我个人认为这两种说法之间没有太大区别。在写作时,我会认为它们对于非专业观众是可以互换的。然而,我现在已经受到两个人的挑战,并且正在寻找一些额外的观点。

我对 S2 的默认解释是,“从人群中随机抽取的 80 人中,我们预计其中一人会死于车祸”——我确实认为这个限定陈述等同于 S1。

我的问题如下:

  • Q1) 我的默认解释真的等同于陈述一吗?

  • Q2) 我的默认解释是不寻常还是鲁莽?

  • Q3) 如果您确实认为 S1 和 S2 不同,以至于当一个意味着第一个具有误导性/不正确的情况下说明第二个,您能否提供一个等效的 S2 的完全合格修订版?

让我们抛开 S1 没有具体提到人类死亡这一明显的狡辩,并假设在上下文中可以理解这一点。让我们也搁置任何关于声明本身真实性的讨论:它的目的是说明性的。

据我所知,到目前为止,我听到的分歧似乎集中在默认对第一和第二个陈述的不同解释上。

对于第一个,我的挑战者似乎将其解释为 1/80 * num_deaths = 车祸造成的死亡人数,但出于某种原因,默认为对第二个的不同解释,“如果你有任何集合在 80 人中,其中一人死于车祸”(这显然不是等价的说法)。我认为,鉴于他们对 S1 的解释,他们对 S2 的默认设置是(1/80 * num_dead_people = 死于车祸的人数 == 死于车祸的人数)。我不确定为什么解释上的差异(他们对 S2 的默认假设是一个更强大的假设),或者他们是否有一些我实际上缺乏的先天统计意义。

4个回答

对我来说,“80 人中有 1 人死亡……”是迄今为止更明确的说法。您的“80 分之一”中的分母是所有死亡事件的集合,并且该陈述使其明确。

“80 人中有 1 人……”的表述有歧义。您的真正意思是“80 人中有 1 人死去……”,但该声明可以很容易地解释为“80 人中就有 1 人现在还活着……”或类似的说法。

我完全赞成在这样的概率或频率断言中明确说明参考集。如果你在谈论死亡的比例,那么说“死亡”而不是“人”。

首先,我的第一个直觉想法是:“如果交通死亡率保持不变,可能会持续数十年,S2 只能与 S1 相同”——这在过去几十年中肯定不是一个好的假设。这已经暗示了一个困难在于隐含/不言而喻的时间假设。

我会说你的陈述有形式

1 英寸x population经验event.

在 S1 中,人口是死亡人数,并且隐含的时间规范是目前或“在一个适当大的 [有足够的病例数] 但不是太宽的时间范围 [有大致恒定的车祸特征] 在目前”

在 S2 中,人口是人。而其他人似乎不是将其解读为“垂死的人”,而是“活着的人”(毕竟,这是人们更频繁/更长时间做的事情)。如果您将人口视为活着的人,显然,现在活着的每 80 人中,没有一个人“现在”死于车祸。所以这被解读为“当他们死去时[可能从现在起几十年],死因是车祸”。

带回家的信息:始终小心说明您的人口是谁以及一般分数的分母。(Gerd Gigerenzer 的论文指出,没有说明分母是造成混淆的主要原因,尤其是在统计和风险沟通方面)。

这取决于您是在描述还是在预测

“每 80 人中就有 1 人死于车祸”是一个预测。在今天所有活着的人中,在他们余生的某个时间里,80 分之一的人会这样死去。

“80 人中有 1 人死于车祸”是一种描述。在给定时期(例如支持研究的时间跨度)内死亡的所有人中,80 人中有 1 人确实死于车祸。

请注意,这里的时间窗口是不明确的。一句话暗示死亡已经发生;另一个暗示它们有一天会发生。一句话暗示你的基线人口是已经死去的人(以及在那之前还活着的人);另一个意味着今天还活着(最终将死去)的基线人口。

这些实际上是完全不同的陈述,您的源数据可能只支持其中一个。

附带说明一下,这种模糊性源于作为一个人的状态(持续发生)与死亡事件(在某个时间点发生)之间的不匹配。每当您以这种方式组合事物时,您都会得到同样模棱两可的东西。您可以通过使用两个事件而不是一个状态和一个事件来立即解决歧义;例如,“每出生 80 人,就有 1 人死于车祸。”

由于抽样偏差,这两种说法有所不同,因为人们年轻时更容易发生车祸。

让我们通过假设一个不切实际的场景来使这一点更加具体。

考虑以下两个陈述:

  • 一半的死亡是由车祸造成的。
  • 今天活着的人中有一半会死于车祸。

我们将证明这两个陈述是不一样的。

让我们把事情大大简化,假设每个出生的人要么在 80 岁时死于心脏病发作,要么在 40 岁时死于车祸。此外,让我们假设上面的第一个陈述成立,并且我们处于稳定状态的人口中,所以死亡平衡出生。然后会有三个人类种群,都一样大。

  • 40岁以下死于车祸的人。
  • 40岁以下死于心脏病的人。
  • 40岁以上会死于心脏病的人。

这三个人口必须同样大,因为死于车祸的人(来自上面的第一个人口)和死于心脏病的人的比率(来自上面的第三个人口)是相等的。

为什么他们是平等的?每年死于车祸的人数是1/40第一人口中的人数,死于心脏病的人数是1/40第三人口中的人数,因此两个人口必须具有相同的大小。此外,第二个种群与第三个种群大小相同(因为第三个种群是第二个,40 年后)。

所以在这种情况下,今天活着的所有人中只有三分之一会死于车祸,所以这两种说法是不一样的。

在现实生活中,我的印象是车祸发生的年龄比大多数其他死因要年轻得多。如果是这种情况,您的陈述一和陈述二中的数字将有很大差异。

如果您将第二个语句修改为

  • 一半出生的人会死于车祸,

那么在稳态人口的假设下,这两个陈述将是等价的。但是,当然,在现实世界中,我们没有稳定状态的人口,并且类似的(尽管更复杂)的论点表明,对于不断增长或缩小的人口,抽样偏差仍然使这两个陈述不同。