我正在进行分析,主要目标是了解数据。数据集足够大,可以进行交叉验证(10k),预测变量包括连续变量和虚拟变量,结果是连续的。主要目标是看看剔除一些预测变量是否有意义,以使模型更易于解释。
问题:
我的问题是“哪些变量可以解释结果,并且是该解释中‘足够强大’的部分”。但是要为 lasso 选择 lambda 参数,您需要使用交叉验证,即预测有效性作为标准。在进行推理时,预测有效性是否足以代表我提出的一般问题?
假设 LASSO 只保留了 8 个预测变量中的 3 个。现在我问自己:“这些对结果有什么影响”。例如,我发现了性别差异。套索收缩后,系数表明女性的得分比男性高 1 分。但没有收缩(即在实际数据集上),他们的得分高出 2.5 分。
- 我会将哪一个视为我的“真实”性别效应?仅通过预测有效性,它将是收缩系数。
- 或者在一个上下文中,假设我正在为不精通统计的人写一份报告。我会向他们报告哪个系数?