我正在使用惩罚的 R 包来获得数据集的缩小的系数估计值,其中我有很多预测变量,但对哪些变量很重要却知之甚少。在我选择了调整参数 L1 和 L2 并且我对我的系数感到满意之后,是否有一种统计上合理的方法来总结模型拟合与 R 平方之类的东西?
此外,我有兴趣测试模型的整体重要性(即 R²=0,还是全部 =0)。
我已经阅读了关于此处提出的类似问题的答案,但它并没有完全回答我的问题。有一个关于我在这里使用的 R 包的优秀教程,作者 Jelle Goeman 在教程末尾有以下关于惩罚回归模型的置信区间的注释:
询问回归系数或其他估计量的标准误差是一个非常自然的问题。原则上,这种标准误差可以很容易地计算出来,例如使用 bootstrap。
尽管如此,这个包还是故意不提供它们。这样做的原因是标准误差对于诸如由惩罚估计方法产生的强烈偏差估计不是很有意义。惩罚估计是一种通过引入大量偏差来减少估计量方差的过程。因此,每个估计量的偏差是其均方误差的主要组成部分,而其方差可能只占一小部分。
不幸的是,在惩罚回归的大多数应用中,不可能获得足够精确的偏差估计。任何基于 bootstrap 的计算只能对估计的方差进行评估。只有当可靠的无偏估计可用时,才可获得可靠的偏差估计,这在使用惩罚估计的情况下通常不是这种情况。
因此,报告惩罚估计的标准误差只能说明部分情况。它可以给人一种非常精确的错误印象,完全忽略了由偏差引起的不准确性。仅基于对估计方差的评估做出置信度陈述无疑是错误的,例如基于引导的置信区间所做的。