发现双重可能性事件的概率

机器算法验证 可能性 近似
2022-04-13 13:22:51

重复一个实验n可能的结果t独立时间,除了一个结果之外的所有结果都有概率1n+1另一个结果的概率是双倍的2n+1,对于概率较高的结果比任何其他结果更频繁地发生的概率,是否有一个很好的近似公式?

为了我,n通常是数百个,并且t选择取决于n这样最可能的结果最常发生的概率在 10% 到 99.999% 之间。

目前,我使用一个小程序来计算粗略的近似值,假设每个结果出现的频率t试验是独立的,并使用泊松分布近似计数。我该如何改进呢?

编辑:我非常感谢对给出的两个(可能很快更多)答案的评论/投票。

编辑 2:由于这两个答案都不能说服我,但我不想让 100 分赏金消失(而且没有人投票赞成/反对这两个答案之一),我只会选择一个答案。我仍然很感激其他答案。

3个回答

按“双重结果”的出现频率划分结果。以此数字为条件,剩余结果的分布在等概率箱中是多项式的。同等可能的箱子中没有箱子收到超过结果的机会。因此,寻求的概率等于x0xttxn1 p(tx,n1,x)n1x

x=0t(tx)(2n+1)x(n1n+1)txp(tx,n1,x).

Exact Tail Probabilities and Percentiles of the Multinomial Maximum中,Anirban DasGupta 指出(在纠正印刷错误后)等于在的展开中的系数(使用他的符号)。对于此处涉及的的值,该系数最多可以在几秒钟内计算出来(确保在执行获得p(n,K,x)Kn/n!λn(j=0xλj/j!)KtnO(λn+1)Kth力量)。(我检查了时间并通过复制 DasGupta 的表 4 更正了拼写错误,该表显示了互补概率,并将其扩展到均为数百的值。)1p(n,K,x)nK

引用 Kolchin等人的定理。远大于的计算密集型情况提供了一个近似值在精确计算和近似之间,似乎涵盖了所有可能性。tn

我同意一些评论,因为泊松近似在这里听起来不错(不是“粗略”的近似)。它应该是渐近精确的,并且似乎是最合理的做法,因为精确的解析解似乎很困难。

作为一种中间选择,(如果你真的需要它)我建议我首先按以下方式对泊松近似进行修正(我前段时间做过类似的事情,并且它有效)。

正如评论所建议的那样,如果我们以总和为条件,您的模型是(不是近似而是完全)泊松。那是:

(在这里是一个参数) 是独立泊松变量的向量,第一个具有,其他的具有,所以很明显不等同于其他模型(因为我们的模型仅限于),但它是一个很好的近似值。此外,等价于我们的模型。确实,我们可以写Xttnλ=2t/(n+1)λ=t/(n+1)s=xE(s)=tXts=tXt|s

P(Xt)=sP(Xt|s)P(s)

这也可以写为考虑的事件(是最大值)。x1

我们知道要计算 LHS 和,但我们对另一个项感兴趣。我们的一阶泊松近似来自假设集中于均值以便它可以被同化为一个 delta,然后P(s)P(s)P(Xt)P(Xt|s=t)

为了改进近似值,我们可以将上述视为两个函数的卷积:我们假设在和准 delta 函数,例如具有小方差的高斯函数。现在,我们有我们的一阶近似(对于连续变量):P(Xt|s)s=t

h(x)=g(x)N(x0,σ2) (卷积)

h(x0)g(x0)+g(x0)σ2/2

g(x0)h(x0)h(x0)σ2/2

将此应用于前面的等式可以导致对我们所需概率的精确近似。

只是一个解释:部分出于好奇,部分是因为缺乏更好的理论方法,我以完全经验/归纳的方式解决了这个问题。我知道在没有获得太多洞察力的情况下陷入死胡同的风险,但我想,无论如何我都会展示我到目前为止所得到的东西,以防它对某人有用。

从计算的精确概率开始,我们得到n,t{1,...,8}

低 n,t 的前几个概率表

由于潜在的多项分布,将表中的条目乘以会得到一个纯整数表:(n+1)t

整数概率表

现在我们发现在中对于每一列都有一个多项式作为该列的序列函数:n

不同 t 的序列函数

将序列函数除以为我们提供了第一个的原始概率的序列函数。这些有理多项式可以通过将它们分解为部分分数并用代替来简化,给我们留下:(n+1)ttx1/(n+1)

x=1/(n+1) 中的序列函数

或作为系数表

序列函数系数

列开始,这些系数又有序列函数:x2

x^k 系数序列函数

我就是这么走的。这里肯定有允许序列函数发生的可利用模式,但我不确定这些序列函数是否有一个很好的封闭形式解决方案。