解释模型的 LASSO:是否缩小参数?

机器算法验证 套索 解释模型
2022-03-12 19:17:30

我正在进行分析,主要目标是了解数据。数据集足够大,可以进行交叉验证(10k),预测变量包括连续变量和虚拟变量,结果是连续的。主要目标是看看剔除一些预测变量是否有意义,以使模型更易于解释。

问题:

  1. 我的问题是“哪些变量可以解释结果,并且是该解释中‘足够强大’的部分”。但是要为 lasso 选择 lambda 参数,您需要使用交叉验证,即预测有效性作为标准。在进行推理时,预测有效性是否足以代表我提出的一般问题?

  2. 假设 LASSO 只保留了 8 个预测变量中的 3 个。现在我问自己:“这些对结果有什么影响”。例如,我发现了性别差异。套索收缩后,系数表明女性的得分比男性高 1 分。但没有收缩(即在实际数据集上),他们的得分高出 2.5 分。

    • 我会将哪一个视为我的“真实”性别效应?仅通过预测有效性,它将是收缩系数。
    • 或者在一个上下文中,假设我正在为不精通统计的人写一份报告。我会向他们报告哪个系数?
1个回答

如果您的目标是准确估计模型中的参数,那么您与真实模型的接近程度就是您应该如何选择模型。通过交叉验证的预测有效性是一种方法,并且是在 LASSO 回归中选择λ

现在,要回答关于哪个参数估计是“真实估计”的问题,应该看看哪个参数“最接近”真实参数值。“最接近”是否意味着最小化偏差的参数估计?如果是这样,那么最小二乘估计量在线性回归中是无偏的。最接近是否意味着最小化均方误差 (MSE) 的参数估计?然后可以证明,有一个岭回归规范可以为您提供最小化 MSE 的估计值(类似于 LASSO,岭回归将参数估计值缩小到零,但与 LASSO 不同,参数估计值不会达到零)。相似地,λ)。作为统计学家,您必须确定什么是“最佳”估计并将其报告给那些不精通统计的人(最好带有一些估计的置信度)。什么是“最好的”可能是也可能不是有偏见的估计。

R 中的glmnet值方面做得很好,总而言之,通过交叉验证λλ

的贝叶斯 LASSO 模型,但我可能不正确地假设您正在做一个常客 LASSO 模型。λ