如果以一种巧妙的方式应用收缩,对于更有效的估计器来说,它总是更好吗?

机器算法验证 回归 岭回归 正则化
2022-03-26 04:07:18

假设我有两个估计量是相同参数的一致估计量,因此 在 psd 意义上。因此,渐近更有效。这两个估计器基于不同的损失函数。β^1β^2β0

n(β^1β0)dN(0,V1),n(β^2β0)dN(0,V2)
V1V2β^1β^2

现在我想寻找一些收缩技术来改善我的估计器的有限样本属性。

假设我找到了一种收缩技术,可以改进有限样本中的估计器并给我 MSE 的值等于这是否意味着我可以找到适用于的合适的收缩技术, 这将使我的 MSE不大于β^2γ^2β^1 γ^2

换句话说,如果巧妙地应用收缩,它是否总是对更有效的估计器更好?

2个回答

让我提出一个公认有点无聊的反例。假设不仅在渐近上比更有效,而且还达到了 Cramer Rao 下界。的一个巧妙的收缩技术是: with中。的渐近方差 其中最后一个等式使用引理在豪斯曼的论文中。我们有 β^1β^2β^2

β^2=wβ^2+(1w)β^1
w(0,1)β^2
V=Avar(wβ^2+(1w)β^1)=Avar(w(β^2β^1)+β^1)=V1+w2(V2V1)
V2V=V2(1w2)V1(1w2)0
因此存在渐近风险改善(没有偏差项)。提供了一些渐近(因此希望是有限样本)的改进然而,从这个过程中没有类似的收缩估计器β^2β^1

当然,这里的重点是收缩是针对有效估计器进行的,因此不适用于有效估计器本身。这在高层次上似乎很明显,但我猜在一个具体的例子中这不是那么明显(均匀分布的 MLE 和矩量法估计器可能就是一个例子?)。

这是一个有趣的问题,我想首先指出一些亮点。

  • 两个估计量一致
  • β^1更有效,因为它实现的变化更少β^2
  • 损失函数不一样
  • 一种收缩方法应用于一种方法,以减少其本身最终成为更好估计器的变化
  • 问题:换句话说,如果巧妙地应用收缩,它 对于更有效的估计器是否总是更好?

从根本上说,可以在某个框架中改进估计器,例如无偏估计器类。但是,正如您所指出的,不同的损失函数会使情况变得困难,因为一种损失函数可以最小化二次损失,而另一种可以最小化熵。此外,使用“总是”这个词非常棘手,因为如果一个估算器是同类中最好的,从逻辑上讲,你不能声称有更好的估算器。

举一个简单的例子(在同一框架中),让两个估计量,即 Bridge(带有范数惩罚的惩罚回归)和 Lasso(第一范数惩罚似然)和一组稀疏参数,即,一个线性模型,误差项的正态性,,已知,二次损失函数(最小二乘误差),以及中协变量的独立性。让第一个估计器选择然后您可以通过选择lpβy=xβ+eeN(0,σ2<)σxlpp=3p=2p1这最终得到了一个更好的估计器,具有更低的方差。那么在这个例子中就有机会改进估计器。

所以我对你的问题的回答是肯定的,因为你假设相同的估计器家族和相同的损失函数以及假设。