贝塔分布背后的直觉是什么?

机器算法验证 分布 贝塔分布 直觉 β-二项分布
2022-01-27 10:02:21

免责声明:我不是统计学家,而是软件工程师。我在统计学方面的大部分知识都来自自学,因此我在理解对这里的其他人来说似乎微不足道的概念方面仍然存在许多差距。因此,如果答案包含较少具体的术语和更多解释,我将非常感激。想象一下,你正在和你的祖母说话 :)

我试图掌握 beta 分发的本质——应该用于什么以及在每种情况下如何解释它。如果我们谈论正态分布,可以将其描述为火车的到达时间:最常见的是它准时到达,不太常见的是提前 1 分钟或晚 1 分钟,很少有不同的到达时间从平均值 20 分钟。均匀分布特别描述了每张彩票在彩票中的机会。二项分布可以用掷硬币等来描述。但是对于beta 分布有这么直观的解释吗?

假设,α=.99β=.5在这种情况下, Beta 分布B(α,β)看起来像这样(在 R 中生成):

在此处输入图像描述

但它实际上是什么意思?Y轴显然是一个概率密度,但是X轴是什么?

我将非常感谢任何解释,无论是这个例子还是其他任何例子。

4个回答

简短的版本是 Beta 分布可以理解为表示概率的分布,即它表示当我们不知道该概率是什么时概率的所有可能值。这是我最喜欢的对此的直观解释:

任何关注棒球的人都熟悉击球率——简单来说,就是一名球员获得基本命中的次数除以他击球的次数(所以它只是一个介于0和之间的百分比1)。.266通常被认为是平均击球率,而.300被认为是出色的击球率。

想象一下,我们有一个棒球运动员,我们想预测他整个赛季的平均击球率。你可能会说我们可以只使用他迄今为止的击球率——但这在赛季开始时将是一个非常糟糕的衡量标准!如果一个球员上场击球一次并得到一个单打,他的击球率是短暂的1.000,而如果他三振出局,他的击球率是0.000如果你连续击球五六次,情况也不会好多少——你可能会得到一个幸运的连胜并得到一个平均值1.000,或者一个不幸的连胜并得到一个平均值0,这两者都不能很好地预测如何你会在那个赛季击球。

为什么你在前几次安打中的击球率不能很好地预测你最终的击球率?当一名球员的第一次击球是三振出局时,为什么没有人预测他整个赛季都不会被击中?因为我们是带着事先的期望进入的。我们知道,在历史上,一个赛季的大多数打击率都徘徊在.215和之间.360,双方都有一些极为罕见的例外。我们知道,如果一名球员在开始时连续获得几次三振出局,这可能表明他最终的表现会比平均水平差一些,但我们知道他可能不会偏离这个范围。

考虑到我们的平均击球率问题,它可以用二项分布(一系列成功和失败)来表示,表示这些先验期望(我们在统计学中称之为先验)的最佳方法是使用 Beta 分布——它是说,在我们看到球员第一次挥杆之前,我们大致预计他的击球率会是这样。Beta 分布的域是(0, 1),就像概率一样,所以我们已经知道我们走在正确的轨道上,但是 Beta 对这项任务的适用性远不止于此。

我们预计球员整个赛季的打击率最有.27可能.21.35. 这可以用带有参数的 Beta 分布来表示:α=81β=219

curve(dbeta(x, 81, 219))

测试版(81, 219)

我想出这些参数有两个原因:

  • 平均值为αα+β=8181+219=.270
  • 正如您在图中看到的那样,这种分布几乎完全位于(.2, .35)击球平均值的合理范围内。

你问过 x 轴在 beta 分布密度图中代表什么——这里它代表他的击球率。因此请注意,在这种情况下,不仅 y 轴是概率(或更准确地说是概率密度),而且 x 轴也是(毕竟击球率只是命中的概率)!Beta 分布表示概率的概率分布

但这就是 Beta 发行版如此合适的原因。想象一下玩家被击中。他本赛季的记录是现在1 hit; 1 at bat然后我们必须更新我们的概率——我们希望将整个曲线移动一点以反映我们的新信息。虽然证明这一点的数学有点复杂(这里显示),但结果非常简单新的 Beta 发行版将是:

Beta(α0+hits,β0+misses)

其中是我们开始使用的参数,即 81 和 219。因此,在这种情况下, 增加了 1(他的一击),而根本没有增加(还没有未命中) )。这意味着我们的新发行版是,或者:α0β0αβBeta(81+1,219)

curve(dbeta(x, 82, 219))

在此处输入图像描述

请注意,它几乎没有变化——这种变化确实是肉眼看不见的!(那是因为一击并不真正意味着什么)。

然而,球员在整个赛季中击球次数越多,曲线就越会移动以适应新的证据,而且基于我们有更多证据的事实,曲线会越窄。假设在赛季中途他已经击球 300 次,其中有 100 次击球。新的分布将是,或者:Beta(81+100,219+200)

curve(dbeta(x, 81+100, 219+200))

在此处输入图像描述

请注意,曲线现在比以前更细并且向右移动(更高的击球率)——我们对球员的击球率有了更好的了解。

这个公式最有趣的输出之一是生成的 Beta 分布的预期值,这基本上是您的新估计。回想一下,Beta 分布的期望值为因此,在 300 次实际击球命中 100 次后,新的 Beta 分布的期望值为 - 注意它低于天真的估计的,但高于您在本赛季开始时的估计值 (αα+β81+10081+100+219+200=.303100100+200=.3338181+219=.270)。您可能会注意到,这个公式相当于在球员的安打数和非安打数上加上“领先优势”——您说的是“在赛季中以 81 次安打和 219 次非安打的记录让他开始” )。

因此,Beta 分布最适合表示概率的概率分布我们事先不知道概率是多少,但我们有一些合理的猜测。

Beta 分布用于对范围有限的事物进行建模,例如 0 到 1。

例如,只有两个结果(如成功和失败)的实验中成功的概率。如果您进行了有限数量的实验,并且有些实验是成功的,那么您可以通过 beta 发行版来表示所告诉您的内容。

另一个例子是订单统计例如,如果你生成几个(比如 4 个)均匀的 0,1 随机数,并对它们进行排序,那么第三个的分布是什么?

我使用它们通过抽样来理解软件性能诊断。如果你随机停止一个程序次,并且其中次你看到它在做一些你实际上可以摆脱的事情,并且,那么这样做节省的时间分数由,并且加速因子具有BetaPrime分布。nss>1Beta(s+1,(ns)+1)

更多关于...

上独立均匀分布的随机样本的顺序统计量(0,1)

准确地说,让上具有均匀分布 , ,的顺序统计, , ,的值进行排序来定义特别是然后可以证明对于每个U1Unn(0,1)U(1)U(n)(U1,,Un)U1UnU(1)=min(Ui)U(n)=max(Ui)U(k)Beta(k,n+1k)k=1,,n

这个结果表明 Beta 分布自然而然地出现在数学中,并且在数学中有一些有趣的应用。

有两个主要动机:

首先,贝塔分布在伯努利分布之前是共轭的。这意味着,如果您有一个未知概率,例如您通过重复掷硬币估计的硬币偏差,那么由一系列硬币翻转引起的未知偏差的可能性是 beta 分布的。

其次,贝塔分布是指数族的一个结果是,它是一组足够统计量的最大熵分布。在 beta 分布的情况下,这些统计数据是这意味着,如果您只保留一组样本的这些充分统计数据的平均测量值,那么您可以对样本分布做出的最小假设是它是 beta 分布的。log(x)log(1x)x[0,1]x1,,xn

Beta 分布对于一般对 [0,1] 上的事物进行建模并不是特别的,因为许多分布可以截断到该支持并且在许多情况下更适用。