机器算法验证 - 如何评估伯努利实验的概率估计器的质量？ - 吾爱随笔录

如何评估伯努利实验的概率估计器的质量？

机器算法验证可能性估计

2022-03-25 08:07:47

鉴于我有一组伯努利实验，每个实验都有一个不同且未知的概率和一个结果，以及一个为每个实验提供事件概率预测的估计器，我想测量估计器的预测质量. $p_i$ $x_i$

示例：我有一堆 n 个“不公平”硬币，每个硬币正面的概率，反面的概率为。概率是未知的，每个硬币我只能掷一次。假设有一个“掷硬币专家”，他可以在掷硬币之前仔细观察每个硬币，并根据形状、大小、宽度、规律性等对概率进行估计。专家做出预测后，掷硬币并记下结果。 $p_i$ $1-p_i$

抛完所有硬币后，我想衡量专家的水平，例如在 0 和 1 之间的范围内，其中 1 表示完美预测，0 表示纯随机性。我也会对预测变量的偏差/方差感兴趣。

4个回答

您可以通过计算所有抛硬币的总惊喜来量化估算器的质量。

假设您的专家对每个硬币做出预测。然后，给定正面朝上的硬币的指标变量，总的惊喜是： $q_i$ $x_i$

\begin{aligned} \sum_{i} [- x_{i} \log q_{i} - (1 - x_{i}) \log (1 - q_{i})] . \end{aligned}

$\begin{align} \sum_i\left[ -x_i\log q_i - (1-x_i)\log (1-q_i)\right]. \end{align}$

的意外的期望值是交叉熵：它是非负的，并且当且仅当时才达到其最小值（的熵）。 $\{p_i\}$

\begin{aligned} \sum_{i} [- p_{i} \log q_{i} - (1 - p_{i}) \log (1 - q_{i})] . \end{aligned}

$\begin{align} \sum_i \left[-p_i\log q_i -(1-p_i)\log (1-q_i)\right]. \end{align}$

{p_{i}}

$\{p_i\}$

p_{i} = q_{i} \forall i

$p_i = q_i \forall i$

如果从交叉熵中减去熵，则得到相对熵（其最小值为零）。如果您取，您将在中得到一个数字，这是您想要的合理概率解释。 $e^{-x}$ $[0, 1]$

如果我正确理解你的问题，你可能想看看这个问题。正如我在那里解释的那样，评估概率预测校准的一种方法是使用评分规则。评分规则的一个常见示例是Brier 分数：其中是预测的概率事件正在发生，为 1，如果没有发生，则为 0。

B S = \frac{1}{N} \sum_{t = 1}^{N} (f_{t} - o_{t})^{2}

$BS = \frac{1}{N}\sum\limits _{t=1}^{N}(f_t-o_t)^2$

f_{t}

$f_t$

o_{t}

$o_t$

当然，您选择的评分规则类型可能取决于您尝试预测的事件类型。但是，这应该会给您一些进一步研究的想法。

但是，Brier 分数的完美预测实际上是 0，因此如果该质量对您很重要，请注意，另一个极端分数（0 或 1，取决于您是否决定翻转 Brier 分数）实际上不是纯粹的随机性，而是代表每次都得到错误的答案。 $1 - BS$

上面的答案可能有用但很复杂，我不知道如何应用它。简单来说，这是一个测试一个人是否具有超能力的特例（实际上与对抛硬币的力学和物理学的科学评估没有什么不同）。显然，具有心理能力必须被定义为比随机机会做得更好。我首先想定义什么是足够的。困难在于确定比随机猜测好多少以及随机猜测会做什么。如果所有硬币都是公平的，随机选择将是 0.5，因此可能会说任何超过 0.75 的东西然后测试该人具有精神力量的假设正在做一个单边假设，即二项式参数 p <= 到 0.75 与替代方案它更大。作为一个估计器，我选择了二项式参数来成功地调用正面或反面，我的估计器的方差是 p(1-p)/n。额外的困难是硬币不公平，个人 pi 是未知的。我仍然将机会定义为随机猜测正面或反面，0.5 是我要测试的。然而，对于不公平的硬币，可能有一些统计策略会导致比机会更好的成功率，但都不能表明个人掷硬币的技巧或精神力量。为了说明，假设 pis 的平均值为 0.80。然后在看到正面出现比反面更频繁之后，我们可以切换到全正面策略，并且在接近 80% 的时间里往往是正确的。这假设随机猜测，直到我们确信正面比反面更频繁地出现，然后我们切换到所有正面。因此，在不知道 pi 或至少他们的平均值的情况下，我无法判断成功率将表明技能。在这种情况下，与随机猜测进行比较并不是要击败的标准。请注意，我的论点只有在硬币堆非常大的情况下才有意义。

评估质量的另一种方法是查看可靠性图。这不会立即产生介于 0 和 1 之间的值，但可用于第一次视觉评估。

其它你可能感兴趣的问题

上一篇如何通过多个评估者、每个参与者不同的评估者以及随时间可能发生的变化来执行评估者间的可靠性？下一篇如何使用 R 中的 lme 函数拟合交叉和嵌套设计的模型？