二项式的方差与. 等效地,Fisher 信息与. 这是什么原因?为什么费雪信息最小化? 也就是说,为什么推理最困难?
语境:
我正在研究样本量计算器,以及,所需的样本量,是一个增加的因素,推导中方差估计的结果。
二项式的方差与. 等效地,Fisher 信息与. 这是什么原因?为什么费雪信息最小化? 也就是说,为什么推理最困难?
我正在研究样本量计算器,以及,所需的样本量,是一个增加的因素,推导中方差估计的结果。
以直观的方式看到方差在, 拿等于(分别。)。然后是一个样本可能会包含许多的(分别。's) 和几个的(分别。的)。那里没有太多变化。
推论是“困难的”'在中间,因为一个样本靠近中间的是符合更广泛的. 接近终点,它不可能离得那么远——因为终点是“障碍”,越过它不能走。
不过,我认为从方差角度来看,直觉更容易。
关于二项式的方差在中间大而在末端小的直觉是相当简单的:在端点附近,数据没有“散布”的空间。考虑小——因为均值接近 0,所以变化不能很大——数据要平均它只能远离平均值。
让我们考虑一系列伯努利试验中样本比例的方差。这里. 所以抱着固定的和变化的, 变化要小得多0附近:
二项式样本中的样本比例——这里只是随机均匀;蓝色案例的平均值为 0.03,黑色的平均值为 0.5(添加了一些抖动,因此点不会堆积太多而丢失细节)
对应的概率函数:
在每种情况下,请注意标记平均值的线条。随着平均线变得更加“卡”在障碍物上,低于平均线的点只能在下面一小段距离。
因此,高于平均值的点通常不会超出平均值太远(因为否则平均值会发生变化!)。靠近端点并没有像那里有障碍时那样真正“推高”。
我们同时看到了为什么分布必须在末端倾斜;对于随机变量有时甚至超过在均值之上,相应地,必须有更多的概率被压扁到尽可能低于均值的程度。0 处迫在眉睫的障碍既限制了可变性,又导致了偏度。
[这种形式的直觉并没有告诉我们为什么它采用这种精确的函数形式,但它确实清楚地说明了为什么方差必须在靠近末端的地方很小,并且越靠近末端越小。]
Fisher信息是评分函数的方差。它与熵有关。对于伯努利试验,每次试验我们都会得到一个比特。因此,正如我们所期望的那样,这个 Fisher 信息具有与香农熵相似的性质。特别是熵在 1/2 处有最大值,而信息在 1/2 处有最小值。