10,000 次尝试中恰好发生一次的概率为 10,000:1

机器算法验证 可能性 可能性
2022-03-29 12:30:01

我有兴趣了解随机事件的“可能性”与实际发生的特定概率与据说可能发生的确切概率之间的区别。即如果一个事件有 1 万分之一的概率,那么在 10000 次试验中它恰好发生 1 次、而不是 2 次、不是 0 次、不是 3 次等的可能性是多少?如何表达(和解释)偏差?

如果一个事件的概率为 1:10,000,那么在 100,000 次试验中,它可能会发生 10 次;在 1,000,000 次试验中,它可能会出现 100 次,但它在任何给定的 1,000,000 次试验中出现任何次数的可能性也不一样,例如:98 次、99 次、101 次、96 次次、102 次等。

从统计学上讲,必须对多少次试验进行平均和考虑才能接近统计确定性,即特定结果实际上是 1:10000,而不是 1:9999 或 1:10001 或 1:10000.5 等?

3个回答

1 万分之一的概率,在 10000 次试验中恰好发生 1 次的似然 概率是多少

1/e0.3679,尽可能接近没有赔率。(它恰好发生 0 次的概率几乎完全相同。)

编辑:正如 Mark L Stone 非常正确地指出的那样,我认为你的问题是暗示试验是独立的,而没有确定情况确实如此。这是一个关键假设(在许多情况下可能不合理)。尽管如此,我将继续在此基础上回答,因为我仍然认为这是您的意图。

对于次试验和的概率也是如此,对于任何足够大的n1/nn

概率(对于任何大的)看起来很像这样(显示 =10000 的情况):nn

在此处输入图像描述

如果一个事件的概率为 1:10,000,那么在 100,000 次试验中,它可能会发生 10 次;在 1,000,000 次试验中,它可能会出现 100 次,但它在任何给定的 1,000,000 次试验中出现任何次数的可能性也不一样,例如:98 次、99 次、101 次、96 次次、102 次等。

不完全是:99 和 100 的机会相同,但其他一切的机会都较低:

在此处输入图像描述

(随着您向外移动,概率会继续下降)。

具体来说,您正在处理二项分布n=1000000p=1/10000

由于很大而很小,因此可以很好地用均值的泊松分布来近似。npλ=np=100

必须对多少次试验进行平均和计算才能接近统计确定性,即特定结果实际上是 1:10000,而不是 1:9999 或 1:10001

你不能确定它实际上是1/10000,因为你可以任意接近它但又不同于它。

次试验中,预期的成功次数是和 sdnnpnp(1p)np

如果,则预期成功次数为,sd如果,预期的成功次数将是 ... 大约一个标准偏差 - 不足以“可靠地”区分它们。但是使用,您的距离大约为 sd,您可以更轻松地将它们区分开来;这可能与大多数人想要的一样低。时,您可以很好地区分它们(此时 1/10000 看起来像 1/9999 或 1/10001 或任何更远的东西的机会非常小)。p=1/10000n=1012108104p=1/9999100,010,000n=4×10122n=1013

次试验感到满意如果您想以与排除 1/9999 相同的信心排除 1/9999.5,则需要 4 倍的试验次数。1013p=1/100001/9999

您可以看到,将比例确定为许多准确度数字(当非常小时)需要大量试验;多几倍的样本量才能获得足够准确的估计,以便您可以排除实际上是p(1/p)3p=1/(k±1)1/k

假设在 10,000,000,000 次试验后,结果出现了 999,982 次,那么您会说下一次试验的概率是 1:9999.82 或 1:10000 还是一些涉及偏差的计算结果?..(或者我猜在只有一组 10,000 次试验后可以问同样的问题,但准确度要低得多!)

是的,可以在 10000 次试验或 1000 次或 100 次时询问。

让我们简化事情,进行 10000 次试验和 98 次成功。当然,可以将成功概率 98/10000 = 0.0098 作为点估计,但这实际上并不是基本比例,只是对其的估计。它很可能是 0.944... 或 0.997... 或任何数量的其他值。

因此,人们要做的一件事是构建一个值区间,该区间将(在某种意义上)与观察到的比例合理一致。有两种主要的统计哲学(贝叶斯统计和频率统计),在大样本中通常会产生相似的区间,但解释却截然不同。

最常见的是(频繁的)置信区间(在同一实验的多次重复中)预期 )的间隔包括给定时间比例的参数。p

典型的贝叶斯区间将从代表您对其值的不确定性的参数的先验分布开始,并使用数据将其知识更新为后验分布,并从中获得可信区间

置信区间被广泛使用(尽管可信区间可能更接近您对区间应该做什么的期望)。二项式比例置信区间的情况下,就像这里一样,有多种方法,尽管在大样本中它们都给你几乎相同的区间。

对于骰子,即使是 6 x 10^9 的试验也可能不会导致六个结果中的每一个都恰好是 1 x 10^9

正确的; 你会期望(用公平的骰子)每次尝试时几乎(但不完全)获得 9.9994 亿和 10.0006 亿之间的成功。

如果实际概率是 1:10000,那么在预期偏差范围内增加试验往往会证实

它几乎总是会继续与之保持一致(以及一系列其他附近的值)。发生的事情不是你可以说它是 1/10000,而是随着样本量的增加,与你的结果一致的概率值的区间会变窄。

我根据它的标题提出了这个问题,同时希望找到一个事件的概率p=1n至少发生一次n迭代。我知道你的问题恰好是一次,但我想它在某种程度上是相关的。

它看起来像n足够大,这种可能性往往1/e0.632并且(非常令人惊讶)几乎独立于n.

解释:

假设我掷骰子 6 次。1在这 6 次尝试中至少获得一次的概率是:

每次尝试未获得“1”的概率:

p=56

在 6 次尝试中没有得到任何“1”的概率:

p=566

在 6 次尝试中至少获得一次“1”的概率:

p=15660.665

同样,假设一个事件的概率为1/10000此事件在10000尝试中至少发生一次的概率为:

p=1999910000100000.634

我们可以将其推断为任何n并得到:

事件的概率p=1n至少发生一次n尝试:

p=1(n1n)n

并且因为:

limn+n1nn=limn+(11n)n=1e0.368

我们可以这样说:

limn+1n1nn0.632

在Grapher中绘制这个方程,我们得到这样的结果:

在此处输入图像描述

结论:虽然这完全有道理,但实际上我对以下事实感到非常惊讶:在次尝试中至少发生一次的事件的概率几乎与无关,因为为已经少到了。p=1nnnn3

让我们建立更简单的骰子问题。让我们计算一次掷骰子 6 次,得分恰好为 1的似然概率。

这有多少种方式发生[及其各自的概率]:

1 is scored in first throw but not in any other throws[1/6*5/6*5/6*...] [=3125/46656]
1 is scored in second throw but not in any other throw [5/6*1/6*5/6*...] [=3125/46656]
...
...

所以 1 在 6 次投掷中只得分一次的总概率是 (3125/46656)*6 = 3125/7776

您可以为概率为 1/n 的事件扩展相同的开发。在 n 次试验中仅发生一次的事件概率为

((n-1)/n)^(n-1)

当我重新排列它时,这可能看起来有点熟悉:

(1-1/n)^(n-1)

您问题的其他部分:随着样本数量的增加减少偏差,已经在另一个答案中得到了很好的解释。