如何用小概率和大样本计算?

机器算法验证 可能性 估计
2022-04-09 15:26:00

是否有可能计算或近似在大样本上一次极不可能发生的事情的概率,即在概率小于机器误差的情况下?

例如,我试图计算某人共享我的基因组的大致可能性。显然,单个基因组可以无损压缩到大约 4MB(2^25 位)。因此,地球上约 70 亿人中的一个共享我的基因组的机会大约是:

(112225)(7×109).

或者使用生日问题方法,至少有两个人具有相同的基因组(让我们忽略双胞胎等)的可能性类似于:

(7×109)!(22257×109)(2225)(7×109)

这里的问题是数字太小或太大,以至于无法大致猜测它们的位置。那么,有没有办法近似这些或类似的计算?

我意识到在某些情况下,问题背后的假设可能会超出多个数量级,但即使能够近似为“更有可能”也会很有趣。

2个回答

在物理学中,费米问题是一个要求你估计一个数量级的练习。你可以对概率做同样的事情。通过练习,你的直觉应该会提高。

正如西安所说,您可以使用对数。也许你一眼看不到,但你可以看到(或),这意味着它。 222510102251010log21033

不要使用复杂的公式来计算您不需要的精确值,而是使用易于计算的估计值。例如,至少有另一个人与您的基因组(忽略双胞胎)的概率最多是具有相同基因组的人的预期数量,一个简单的产品你应该可以估计它非常小。类似地,某些人具有相同基因组的概率最多是具有相同基因组的人对的预期数量,大约12225(7×109)

12(7×109)22225

顺便说一句,我不接受这种基因组概率模型。我只是用你的模型作为例子。该模型将预测,通常在兄弟姐妹之间发现的遗传相似性在天文上是不可能的。

我认为这相当于一个估计概率分布的极端尾部的问题,而不需要非常大的样本量来获得在这些极端值处观察到的任何或少数几个值。做到这一点的唯一方法是假设参数模型“自动”假设分布尾部的形状。但是,如果您对概率模型有理由,那么您可以通过拟合参数族的密度并使用它在尾部区域上积分来估计小概率来获得您寻求的估计值。如果参数假设是错误的,则估计可能会偏离(按数量级)。