介绍:
我有一个带有经典“大 p,小 n 问题”的数据集。可用样本数n = 150,而可能的预测变量数p = 400。结果是一个连续变量。
我想找到最“重要”的描述符,即那些最适合解释结果和帮助建立理论的描述符。
经过对这个主题的研究,我发现 LASSO 和 Elastic Net 常用于大 p,小 n 的情况。我的一些预测变量高度相关,我想在重要性评估中保留它们的分组,因此,我选择了Elastic Net。我想我可以使用回归系数的绝对值来衡量重要性(如果我错了,请纠正我;我的数据集是标准化的)。
问题:
由于我的样本数量很少,如何才能获得稳定的模型?
我目前的方法是在 90% 的数据集上使用 10 倍交叉验证平均 MSE 分数在网格搜索中找到最佳调整参数(lambda 和 alpha)。然后我在整个 90% 的数据集上使用最佳调整参数训练模型。我可以使用保留 10% 的数据集(仅占 15 个样本)的 R 平方来评估我的模型。
反复运行这个过程,我发现 R 平方评估存在很大差异。同样,非归零预测变量的数量及其系数也会发生变化。
如何才能更稳定地评估预测变量的重要性以及更稳定地评估最终模型的性能?
我可以重复运行我的程序来创建多个模型,然后平均回归系数吗?或者我应该使用模型中预测变量的出现次数作为其重要性得分?
目前,我得到大约 40-50 个非归零预测变量。我应该更严厉地惩罚预测变量的数量以获得更好的稳定性吗?