简短的版本是 Beta 分布可以理解为表示概率的分布,即它表示当我们不知道该概率是什么时概率的所有可能值。这是我最喜欢的对此的直观解释:
任何关注棒球的人都熟悉击球率——简单来说,就是一名球员获得基本命中的次数除以他击球的次数(所以它只是一个介于0
和之间的百分比1
)。.266
通常被认为是平均击球率,而.300
被认为是出色的击球率。
想象一下,我们有一个棒球运动员,我们想预测他整个赛季的平均击球率。你可能会说我们可以只使用他迄今为止的击球率——但这在赛季开始时将是一个非常糟糕的衡量标准!如果一个球员上场击球一次并得到一个单打,他的击球率是短暂的1.000
,而如果他三振出局,他的击球率是0.000
。如果你连续击球五六次,情况也不会好多少——你可能会得到一个幸运的连胜并得到一个平均值1.000
,或者一个不幸的连胜并得到一个平均值0
,这两者都不能很好地预测如何你会在那个赛季击球。
为什么你在前几次安打中的击球率不能很好地预测你最终的击球率?当一名球员的第一次击球是三振出局时,为什么没有人预测他整个赛季都不会被击中?因为我们是带着事先的期望进入的。我们知道,在历史上,一个赛季的大多数打击率都徘徊在.215
和之间.360
,双方都有一些极为罕见的例外。我们知道,如果一名球员在开始时连续获得几次三振出局,这可能表明他最终的表现会比平均水平差一些,但我们知道他可能不会偏离这个范围。
考虑到我们的平均击球率问题,它可以用二项分布(一系列成功和失败)来表示,表示这些先验期望(我们在统计学中称之为先验)的最佳方法是使用 Beta 分布——它是说,在我们看到球员第一次挥杆之前,我们大致预计他的击球率会是这样。Beta 分布的域是(0, 1)
,就像概率一样,所以我们已经知道我们走在正确的轨道上,但是 Beta 对这项任务的适用性远不止于此。
我们预计球员整个赛季的打击率最有.27
可能.21
在.35
. 这可以用带有参数和的 Beta 分布来表示:α=81β=219
curve(dbeta(x, 81, 219))
我想出这些参数有两个原因:
- 平均值为αα+β=8181+219=.270
- 正如您在图中看到的那样,这种分布几乎完全位于
(.2, .35)
击球平均值的合理范围内。
你问过 x 轴在 beta 分布密度图中代表什么——这里它代表他的击球率。因此请注意,在这种情况下,不仅 y 轴是概率(或更准确地说是概率密度),而且 x 轴也是(毕竟击球率只是命中的概率)!Beta 分布表示概率的概率分布。
但这就是 Beta 发行版如此合适的原因。想象一下玩家被击中。他本赛季的记录是现在1 hit; 1 at bat
。然后我们必须更新我们的概率——我们希望将整个曲线移动一点以反映我们的新信息。虽然证明这一点的数学有点复杂(这里显示),但结果非常简单。新的 Beta 发行版将是:
Beta(α0+hits,β0+misses)
其中和是我们开始使用的参数,即 81 和 219。因此,在这种情况下, 增加了 1(他的一击),而根本没有增加(还没有未命中) )。这意味着我们的新发行版是,或者:α0β0αβBeta(81+1,219)
curve(dbeta(x, 82, 219))
请注意,它几乎没有变化——这种变化确实是肉眼看不见的!(那是因为一击并不真正意味着什么)。
然而,球员在整个赛季中击球次数越多,曲线就越会移动以适应新的证据,而且基于我们有更多证据的事实,曲线会越窄。假设在赛季中途他已经击球 300 次,其中有 100 次击球。新的分布将是,或者:Beta(81+100,219+200)
curve(dbeta(x, 81+100, 219+200))
请注意,曲线现在比以前更细并且向右移动(更高的击球率)——我们对球员的击球率有了更好的了解。
这个公式最有趣的输出之一是生成的 Beta 分布的预期值,这基本上是您的新估计。回想一下,Beta 分布的期望值为。因此,在 300 次实际击球命中 100 次后,新的 Beta 分布的期望值为 - 注意它低于天真的估计的,但高于您在本赛季开始时的估计值 (αα+β81+10081+100+219+200=.303100100+200=.3338181+219=.270)。您可能会注意到,这个公式相当于在球员的安打数和非安打数上加上“领先优势”——您说的是“在赛季中以 81 次安打和 219 次非安打的记录让他开始” )。
因此,Beta 分布最适合表示概率的概率分布:我们事先不知道概率是多少,但我们有一些合理的猜测。