机器算法验证 - 二项式的Fisher信息与以下成反比的直观原因p ( 1 - p )p(1−p) - 吾爱随笔录

二项式的Fisher信息与以下成反比的直观原因p ( 1 - p )p(1−p)

机器算法验证方差二项分布解释

2022-03-07 22:17:58

二项式的方差与 $p(1-p)$ . 等效地，Fisher 信息与 $\frac{1}{p(1-p)}$ . 这是什么原因？为什么费雪信息最小化 $p=0.5$ ? 也就是说，为什么推理最困难 $p=0.5$ ?

语境：

我正在研究样本量计算器，以及 $N$ ，所需的样本量，是一个增加的因素 $p(1-p)$ ，推导中方差估计的结果。

3个回答

以直观的方式看到方差在 $p = 0.5$ ，拿 $p$ 等于 $0.99$ （分别。 $p = 0.01$ ）。然后是一个样本 $X \sim \text{Bernoulli}(p)$ 可能会包含许多 $1$ 的（分别。 $0$ 's) 和几个 $0$ 的（分别。 $1$ 的）。那里没有太多变化。

推论是“困难的” $p$ '在中间，因为一个样本 $\hat p$ 靠近中间的是符合更广泛的 $p$ . 接近终点，它不可能离得那么远——因为终点是“障碍”，越过它 $p$ 不能走。

不过，我认为从方差角度来看，直觉更容易。

关于二项式的方差在中间大而在末端小的直觉是相当简单的：在端点附近，数据没有“散布”的空间。考虑 $p$ 小——因为均值接近 0，所以变化不能很大——数据要平均 $p$ 它只能远离平均值。

让我们考虑一系列伯努利试验中样本比例的方差。这里 $\text{Var}(\hat p) = p(1-p)/n$ . 所以抱着 $n$ 固定的和变化的 $p$ , 变化要小得多 $p$ 0附近：

二项式样本中的样本比例——这里 $y$ 只是随机均匀；蓝色案例的平均值为 0.03，黑色的平均值为 0.5（添加了一些抖动，因此点不会堆积太多而丢失细节）在此处输入图像描述

对应的概率函数：在此处输入图像描述

在每种情况下，请注意标记平均值的线条。随着平均线变得更加“卡”在障碍物上，低于平均线的点只能在下面一小段距离。

因此，高于平均值的点通常不会超出平均值太远（因为否则平均值会发生变化！）。靠近 $p = \frac{1}{2}$ 端点并没有像那里有障碍时那样真正“推高”。

在此处输入图像描述

我们同时看到了为什么分布必须在末端倾斜；对于随机变量 $\hat p$ 有时甚至超过 $p$ 在均值之上，相应地，必须有更多的概率被压扁到尽可能低于均值的程度。0 处迫在眉睫的障碍既限制了可变性，又导致了偏度。

[这种形式的直觉并没有告诉我们为什么它采用这种精确的函数形式，但它确实清楚地说明了为什么方差必须在靠近末端的地方很小，并且越靠近末端越小。]

Fisher信息是评分函数的方差。它与熵有关。对于伯努利试验，每次试验我们都会得到一个比特。因此，正如我们所期望的那样，这个 Fisher 信息具有与香农熵相似的性质。特别是熵在 1/2 处有最大值，而信息在 1/2 处有最小值。

其它你可能感兴趣的问题

上一篇为什么使用 az test 而不是 at test 与比例数据？下一篇将 n 点李克特量表数据视为来自二项式过程的 n 次试验是否合适？