选定变量的套索和统计显着性

机器算法验证 统计学意义 特征选择 套索
2022-03-27 04:09:19

我正在研究一个回归模型,其中正在评估大量可能的解释变量,最后通过变量选择的套索方法选择了一小部分。λ通过查看交叉验证预测性能来选择套索中的调整参数,这是非常标准的。

但是,当我获取所选变量的列表并仅对它们运行 OLS 时,许多结果在统计上并不显着。如果它们共同显着并且预测性能优于其他模型,那可能会很好(此外,当您已经在单独的步骤中筛选了变量时,会有一个问题是 t 检验意味着什么,但我我把它放在一边)。

我很好奇,在套索选择的模型中查看单个变量的统计显着性是否有意义,使用 CV 预测性能来选择调整参数问题是 lasso 最终选择了各种虚拟变量,这些虚拟变量仅在一小部分人群中为真,而在 OLS 中微不足道,并且存在一个自然问题,即是否应该对模型进行判断性简化。

2个回答

这里至少有两件事需要考虑。

首先,重要的是要认识到回归中的 p 值做出了很多假设才能有效。对您的情况最重要的是,他们假设您遵循以下程序:

我收集了数据,并在不查看我收集的数据的情况下决定了适合的模型。然后我拟合我预先确定的模型,我假设它很好地拟合了数据,而没有真正检查和进行任何更改。

在这些假设下,p 值是有意义的。如果您根据收集的数据对模型进行更改,例如使用 LASSO 进行变量选择,则从线性模型估计的 p 值没有意义。鉴于您实际上对 p 值感兴趣,用户 2530062 对此问题的回答可以解决这部分问题。

其次,还有一个问题是你试图回答什么问题。p 值解决了一个非常具体的问题:

假设这个模型对于我正在收集的数据是正确的,并且我有兴趣估计的这个参数的真实值实际上是零,那么我观察到估计值的相同或更多极端值的概率是多少当我将模型拟合到从此过程中收集的数据样本时,参数。

如果这是您有兴趣回答的问题,那么仔细构建模型以使 p 值有效就是如何去做。但我怀疑这可能不是您真正有兴趣回答的问题。也许你的问题更像是这样的:

在模型中包含此参数可提高我的模型对该过程的预测准确性的概率是多少?

p 值不会为您提供有关该问题的任何真实信息,或者 p 值无法解决的无数其他问题。相反,您应该设计一个程序来准确测量您感兴趣的事物。在上面的示例中,一个严格的程序使用 bootstrap 来估计在模型中包含参数提高预测准确性的概率,以及交叉验证来估计正则化参数,你会做得很好。

本文试图提供在 elasticnet 中计算 p 值的方法。我一直在努力寻找时间来实施它,因为它似乎是实验性的,并且不包含在任何官方 R 包中。

http://statweb.stanford.edu/~tibs/ftp/covtest.pdf

它不能回答您问题的理论部分,但如果您计算弹性网的 p 值,可能会让您更接近答案。