更重要的统计数据:“90% 的女性幸存下来”还是“90% 的幸存者是女性”?

机器算法验证 条件概率 描述性统计 报告
2022-01-19 15:33:27

考虑以下关于泰坦尼克号的陈述:

假设1:船上只有男人和女人

假设2:有大量的男性和女性

陈述 1:90% 的女性幸存下来

陈述 2:90% 的幸存者是女性

第一个表明拯救女性可能是重中之重(无论是否拯救男性)

第二个统计数据什么时候有用?

我们可以说其中一个几乎总是比另一个更有用吗?

4个回答

就目前而言,声明 1 或 2 中的任何一个都不是很有用。如果 90% 的乘客是女性,90% 的人随机幸存,那么这两种说法都是正确的。这些陈述需要结合乘客的整体构成来考虑。以及生存的总体机会。


假设我们的男人和女人一样多,每人 100 人。以下是男性 (M) 与女性 (W) 和幸存者 (S) 与死者 (D) 的一些可能矩阵:

  |  M |  W
------------
S | 90 | 90
------------
D | 10 | 10

90% 的女性幸存下来。和 90% 的男性一样。陈述 1 是正确的,陈述 2 是错误的,因为一半的幸存者是女性。这与许多幸存者一致,但性别之间没有差异

  |  M |  W
------------
S | 10 | 90
------------
D | 90 | 10

90% 的女性幸存下来,但只有 10% 的男性幸存下来。90%的幸存者是女性。两种说法都是正确的。这与两性之间的差异是一致的:女性比男性更有可能存活下来。

  |  M |  W
------------
S |  1 |  9
------------
D | 99 | 91

9% 的女性幸存下来,但只有 1% 的男性幸存下来。90%的幸存者是女性。陈述 1 是错误的,陈述 2 是正确的。这再次与性别差异一致:女性比男性更有可能生存。

从表面上看,以性别为条件的生存条件概率更有用,这仅仅是因为信息流的方向。一个人的性别在她或他的生存状态之前是已知的,并且该概率可以用于预测意义上的前瞻性。此外,它不受女性流行程度的影响。如有疑问,请考虑预测。

第一个表明拯救女性可能是重中之重(无论是否拯救男性)

“优先”一词来自拉丁语,意为“之前”。优先级是先于其他事物的事物(在“更重要”的意义上使用“之前”)。如果你说救女是重中之重,那么救女就必须放在第一位。而自然的假设是,它之前是拯救人类。如果你说“不管是否救人”,那么我们就想知道它之前是什么。

如果我们不知道一般的存活率是多少,那么女性的高存活率并不能说明什么。我乘坐的最后一艘船,超过 90% 的女性幸存下来,但我不会认为这表明拯救女性是重中之重。

如果不知道总体中有多少人是女性,那么知道有多少幸存者是女性并不能说太多。

什么统计数据更有用实际上取决于具体情况。如果你想知道某件事有多危险,死亡率更重要。如果您想知道是什么影响了某物的危险程度,那么伤亡百分比细分很重要。

检查这些概率之间的关系可能对我们有用。

是一个人是女人的事件,让是一个人幸存下来的事件。WS

声明 1:

P(S|W)=0.9

陈述 2:

P(W|S)=0.9

贝叶斯定理说明了这些概率陈述是如何相关的。

P(S|W)=P(W|S)P(S)P(W)

在这种特殊情况下,(生存概率)和(泰坦尼克号上女性的比例)很容易查找,因此概率相互依赖。也就是说,知道一个完全定义了另一个。P(S)P(W)

视为已知,它们是表达相同信息的不同方式(尽管有不同的解释)。P(S)P(W)