从惩罚回归模型估计 R 平方和统计显着性

机器算法验证 回归 套索 逐步回归 岭回归
2022-02-03 08:18:05

我正在使用惩罚的 R 包来获得数据集的缩小的系数估计值,其中我有很多预测变量,但对哪些变量很重要却知之甚少。在我选择了调整参数 L1 和 L2 并且我对我的系数感到满意之后,是否有一种统计上合理的方法来总结模型拟合与 R 平方之类的东西?

此外,我有兴趣测试模型的整体重要性(即 R²=0,还是全部 =0)。

我已经阅读了关于此处提出的类似问题的答案,但它并没有完全回答我的问题。有一个关于我在这里使用的 R 包的优秀教程,作者 Jelle Goeman 在教程末尾有以下关于惩罚回归模型的置信区间的注释:

询问回归系数或其他估计量的标准误差是一个非常自然的问题。原则上,这种标准误差可以很容易地计算出来,例如使用 bootstrap。

尽管如此,这个包还是故意不提供它们。这样做的原因是标准误差对于诸如由惩罚估计方法产生的强烈偏差估计不是很有意义。惩罚估计是一种通过引入大量偏差来减少估计量方差的过程。因此,每个估计量的偏差是其均方误差的主要组成部分,而其方差可能只占一小部分。

不幸的是,在惩罚回归的大多数应用中,不可能获得足够精确的偏差估计。任何基于 bootstrap 的计算只能对估计的方差进行评估。只有当可靠的无偏估计可用时,才可获得可靠的偏差估计,这在使用惩罚估计的情况下通常不是这种情况。

因此,报告惩罚估计的标准误差只能说明部分情况。它可以给人一种非常精确的错误印象,完全忽略了由偏差引起的不准确性。仅基于对估计方差的评估做出置信度陈述无疑是错误的,例如基于引导的置信区间所做的。

2个回答

我对 Jelle 的评论的第一反应是“bias-schmias”。您必须小心“大量预测变量”的含义。这在以下方面可能是“大”的:

  1. 数据点的数量(“big p small n”)
  2. 您必须调查变量的时间
  3. 反转巨型矩阵的计算成本

我的反应是基于第 1 点的“大”。这是因为在这种情况下,通常值得在偏差上进行权衡,以减少您获得的方差。偏见仅在“长期”中很重要。所以如果你有一个小样本,那么谁在乎“长期”呢?

说了这么多,可能不是一个特别好的计算量,尤其是当你有很多变量时(因为这几乎就是告诉你的所有内容:你有很多变量)。我会使用交叉验证来计算更像“预测错误”的东西。R2R2

理想情况下,这种“预测误差”应该基于您的建模情况的上下文。您基本上想回答“我的模型再现数据的效果如何?”这个问题。您所处的环境应该能够告诉您“有多好”在现实世界中的含义。然后,您需要将其转换为某种数学方程式。

但是,我没有明显的背景可以脱离这个问题。所以“默认”类似于 PRESS: Where是在没有第 i 个数据点的情况下拟合模型的预测值不影响模型参数)。求和中的项也称为“删除残差”。模型拟合的计算成本太高(尽管大多数程序通常会在标准输出中为您提供类似的东西),那么我建议对数据进行分组。所以你设置你准备等待

PRESS=i=1N(YiY^i,i)2
Y^i,iYiYiNT(最好不是 0 ^_^),然后将其除以适合模型所需的时间。这将给出总共重新拟合,样本大小为 一种方式您可以了解每个变量的重要性,即重新拟合普通回归(变量顺序相同)。然后按比例检查每个估计量向零缩小了多少MG=TMNg=N×MT
PRESS=g=1Gi=1Ng(YigY^ig,g)2
βLASSOβUNCONSTRAINED. Lasso 和其他约束回归可以被视为“平滑变量选择”,因为不是采用二元“进或出”方法,而是每个估计值接近于零,具体取决于它对模型的重要性(如由误差测量)。

R 包hdm和 Stata 包lassopack支持对 lasso 进行联合显着性检验。该理论允许预测变量的数量相对于观测值的数量很大。hdm文档中简要说明了测试背后的理论以及如何应用它。简而言之,它基于理论驱动的惩罚框架(由 Belloni、Chernozhukov 和 Hansen 等人开发)。如果您想了解更多有关基本理论的信息,本文是一个很好的起点。唯一的缺点是该测试仅适用于套索和(平方根套索)。不适用于其他惩罚回归方法。

Belloni, A. , Chen, D. , Chernozhukov, V. 和 Hansen, C. (2012),适用于知名领域的最优仪器的稀疏模型和方法。计量经济学,80:2369-2429。