我从其他帖子中了解到,不能将“重要性”或“重要性”归因于进入套索模型的预测变量,因为计算这些变量的 p 值或标准差仍在进行中。
根据这种推理,断言不能说从套索模型中排除的变量是“不相关的”或“无关紧要的”是否正确?
如果是这样,对于套索模型中排除或包含的变量,我实际上可以声称什么?在我的具体情况下,我通过重复 10 次交叉验证 100 次来选择调整参数 lambda,以减少随机性并平均误差曲线。
UPDATE1:我遵循以下建议并使用引导示例重新运行套索。我尝试了 100 个样本(这个数量是我的计算机能力在一夜之间可以管理的)并且出现了一些模式。我的 41 个变量中有 2 个进入模型的次数超过 95%,3 个变量超过 90%,5 个变量超过 85%。这 5 个变量是我使用原始样本运行模型时进入模型的 9 个变量,并且是当时系数值最高的变量。如果我使用 1000 个引导样本运行套索并且保持这些模式,那么呈现我的结果的最佳方式是什么?
1000 个引导样本听起来足够吗?(我的样本量是 116)
我是否应该列出所有变量以及它们进入模型的频率,然后争辩说那些更频繁地进入模型的变量更可能是显着的?
就我的主张而言,这就是我所能做的吗?因为这是一项正在进行的工作(见上文),所以我不能使用截止值,对吧?
UPDATE2:根据以下建议,我计算了以下内容:平均而言,原始模型中 78% 的变量进入了为 100 个引导样本生成的模型。另一方面,反过来只有 41%。这在很大程度上与为 bootstrap 样本生成的模型往往包含比原始模型 (9) 更多的变量(平均 17 个)这一事实有关。
UPDATE3:如果你能帮助我解释我从引导和蒙特卡洛模拟中得到的结果,请看看这个其他帖子。