机器算法验证 - 不一致的估计器是否更可取？一个转折 - 吾爱随笔录

不一致的估计器是否更可取？一个转折

机器算法验证估计一致性

2022-03-25 00:35:54

主题“不一致的估计器更可取吗？” 并且@whuber 在其中的回答表明，对于合适的损失函数，@whuber 构建感兴趣示例的想法是基于找到一个损失函数，该损失函数不是在真实参数值处而是在其他地方最小化。（编辑：最后一句不正确。） $n$

我想把这个问题更进一步。在类似于@whuber 的示例中，可能存在一个伪真（因为没有更好的术语）参数值，它使损失函数的期望值最小化。（我认为这个值取决于损失函数和实际参数值。）

问题 1：如果我们对伪真值（对应于给定的损失函数和实际参数值）有一个合理的一致估计器，那么是否存在不一致估计器的示例，它对于所有有限都优于相同的损失功能？ $n$

编辑：我误读了@whuber 的例子。在那里，损失函数不仅在其他地方被最小化，而且在真实参数值处也被最小化，这与我最初的理解相反。这使我的问题失去了基础。但是，我有一个相关的问题。

问题 2：让我们限制损失函数的选择，使它们在真实参数值处达到最小值，但在其他任何地方都没有。（这排除了@whuber 使用的损失函数的类型。）如果我们有一个合理的一致估计器，是否有一个不一致的估计器的例子，它对所有有限的都优于它？ $n$

2个回答

在上一个问题中，whuber 的示例实际上是一个成本函数，当估计等于真实参数值为零，因此的最小值。 $t$ $t=\mu$ $\mu \leq t \leq \mu+1$ $t=\mu$

编辑：问题已经改变，但 whuber 的示例仍然有效，即使成本函数的最小值唯一位于。例如考虑这个损失函数： $t = \mu$

L (t | μ) = {\begin{cases} 1 & if t < μ \\ (t - μ)^{2} & if μ \leq t \leq μ + 1 \\ 1 & if μ + 1 < t \end{cases}

$L(t \vert \mu)= \begin{cases} 1 & \quad \text{if} \quad t < \mu \\ (t - \mu)^2& \quad\text{if}\quad \mu \leq t \leq \mu + 1 \\ 1 & \quad\text{if}\quad \mu + 1 < t \end{cases}$

一致的估计量，对于的期望值，并且任何具有轻微偏差的估计量高估 d 的均值接近作为期望值成本。 $\mu$ $n \to \infty$ $0.5$ $d$ $d^2$

连续性

该示例的技巧是成本函数在“真实参数”处不连续。

处的成本/损失函数是连续的，则一致估计器将接近该值（通过连续映射定理） $L(\mu)$

lim_{n \to \infty} L (t_{n}) = L (μ)

$\lim_{n \to \infty} L(t_n) = L(\mu)$

那么如果也是可能的最低值那么一致的估计器不能对所有的表现更好。 $L(\mu)$

\forall x \neq μ : L (μ) \leq L (x)

$\forall x\neq \mu : L(\mu) \leq L(x)$

n

$n$

这是一个有点摇摆不定的论点，我想可能存在一些病态的情况，即一致估计器和非一致估计器的成本函数都接近最小值，但一致估计器做得更快。例如，将 whuber 示例的成本函数调整为具有一些小尺寸的两个块，例如 0 表示和 0 表示和 1 其他地方。 $d$ $\mu-d<t<\mu+d$ $\mu+0.5-2d<t<\mu+0.5+2d$

唯一最小值

在的情况下，我无法想象这些病理情况会继续存在。

\forall x \neq μ : L (μ) < L (x)

$\forall x\neq \mu : L(\mu) < L(x)$

（但也许你应该准确地定义“一致性”和“支配”/“优于”，因为我可以想象那里存在差异，例如具有无限方差的一致估计量，与有限的有偏估计量相比，它不会主导误差的方差方差）

示例图：

在下图中，您可以看到无偏估计量是负时间的一半（对于负值，成本函数等于 1），这就是任何有限样本大小的预期值 > 0.5 的原因。

在下图中，您可以看到估计量的成本函数最小值等于真实值，但是，如果这不是成本函数的唯一最小值（在示例中，所有值的成本为 0 ) 那么有偏估计量的极限也可以是最小值。此外，有偏估计器对于所有有限值都有一个较低的成本函数期望值（因为它位于成本值为零的位置的中间，而无偏估计器位于成本函数较高的边缘）。 $\mu \leq t \leq \mu+1$

如另一个问题所述。并非每个一致的估计器都比非一致的估计器表现得差。

在第一个例子中，我们可以通过让偏差随着样本量的增加而减小到零来制作一个有偏但一致的估计器，对于这个估计器，只要我们可以增加样本量，估计的成本就可以尽可能接近零没有限制。

Richard Hardy 的评论与第二个例子有关

我也希望我们有更适合讨论这些问题的词汇。您的答案中的两个估计量都是“一致的”，但针对不同的目标

我们可以将一致的估计器称为通过增加样本量来尽可能接近目标值的估计器。（例如，通过与目标变为零的差异的方差来衡量接近）。

然后

如果成本函数在与平均值不同的某个点具有最小值（或者当最小值不是唯一的平均值时），那么成本函数的一致估计量不一定是参数估计的一致估计量有点微不足道. 我们也许能够构建在成本方面表现更好的不一致估计器（关于参数估计）。
如果成本函数在真实参数值处不连续，则并非每个参数的一致估计量都需要是成本函数的一致估计量。

我认为这里正确的问题不是一个不一致的估计器是否可以比一个特定的一致估计器更好。有了这个问题，您可以创建非常糟糕的一致估计器，这些估计器可能会被糟糕的不一致估计器击败。

这里的正确问题似乎是，如果没有任何一致的估计器可以保证比给定足够大的所有不一致的估计器更好。这里的两个例子都未能表明是否是这种情况。 $n$

在这两个例子中，我们仍然可以使估计值任意接近真实均值。诀窍就是根据样本量开始减少我们添加到样本均值的“校正”。样本量越大，我们需要添加到样本均值上来确保我们高估的次数就越少。

因此，这些示例只是表明，如果您使用不考虑损失函数形状的朴素估计器，例如样本均值，它将低估和高估同等对待，那么您可以使用简单的朴素不一致做得更好始终添加相同常数的估计器。

但这并不意味着你不能根据样本大小调整高估的程度，从而获得一个仍然考虑非对称损失函数的一致估计量。

总而言之，在这些示例中，样本均值作为估计量的问题根本与一致性无关。并且不一致估计量的收益也不是由于它的不一致。

其它你可能感兴趣的问题

上一篇R：对 lmer 的事后测试。emmeans 和 multcomp 软件包下一篇是什么dF( X)dF(X)在一些关于概率密度的积分中？