二项式的Fisher信息与以下成反比的直观原因p ( 1 - p )p(1−p)

机器算法验证 方差 二项分布 解释
2022-03-07 22:17:58

二项式的方差与p(1p). 等效地,Fisher 信息与1p(1p). 这是什么原因?为什么费雪信息最小化p=0.5? 也就是说,为什么推理最困难p=0.5?

语境:

我正在研究样本量计算器,以及N,所需的样本量,是一个增加的因素p(1p),推导中方差估计的结果。

3个回答

以直观的方式看到方差在p=0.5, 拿p等于0.99(分别。p=0.01)。然后是一个样本XBernoulli(p)可能会包含许多1的(分别。0's) 和几个0的(分别。1的)。那里没有太多变化。

推论是“困难的”p'在中间,因为一个样本p^靠近中间的是符合更广泛的p. 接近终点,它不可能离得那么远——因为终点是“障碍”,越过它p不能走。

不过,我认为从方差角度来看,直觉更容易。

关于二项式的方差在中间大而在末端小的直觉是相当简单的:在端点附近,数据没有“散布”的空间。考虑p小——因为均值接近 0,所以变化不能很大——数据要平均p它只能远离平均值。

让我们考虑一系列伯努利试验中样本比例的方差。这里Var(p^)=p(1p)/n. 所以抱着n固定的和变化的p, 变化要小得多p0附近:

二项式样本中的样本比例——这里y只是随机均匀;蓝色案例的平均值为 0.03,黑色的平均值为 0.5(添加了一些抖动,因此点不会堆积太多而丢失细节) 在此处输入图像描述

对应的概率函数: 在此处输入图像描述

在每种情况下,请注意标记平均值的线条。随着平均线变得更加“卡”在障碍物上,低于平均线的点只能在下面一小段距离。

因此,高于平均值的点通常不会超出平均值太远(因为否则平均值会发生变化!)。靠近p=12端点并没有像那里有障碍时那样真正“推高”。

在此处输入图像描述

我们同时看到了为什么分布必须在末端倾斜;对于随机变量p^有时甚至超过p在均值之上,相应地,必须有更多的概率被压扁到尽可能低于均值的程度。0 处迫在眉睫的障碍既限制了可变性,又导致了偏度。

[这种形式的直觉并没有告诉我们为什么它采用这种精确的函数形式,但它确实清楚地说明了为什么方差必须在靠近末端的地方很小,并且越靠近末端越小。]

Fisher信息是评分函数的方差。它与熵有关。对于伯努利试验,每次试验我们都会得到一个比特。因此,正如我们所期望的那样,这个 Fisher 信息具有与香农熵相似的性质。特别是熵在 1/2 处有最大值,而信息在 1/2 处有最小值。