小数据集的多元回归

机器算法验证 回归 小样本
2022-03-23 13:22:01

我有一个项目案例研究数据集,用于政府机构支持决策活动的新型研究方法。我的任务是根据过去的经验为未来的项目开发一种估算方法,以进行估算。

我的数据集仅限于 50 个案例。我记录了 30 多个(潜在)预测变量和一个响应变量(即完成项目所需的时间)。

并非所有预测变量都很重要,使用逐步选择技术,我预计预测变量的数量可能在 5-10 个变量范围内。尽管我正在努力使用 PASW (SPSS) 等工具中的标准方法来获得预测变量集。

我很清楚所有关于样本量和预测变量与案例比率的经验法则的材料。我的困境是,收集 50 个案例需要将近 10 年的时间,所以它几乎可以做到。

我的问题是我应该怎么做才能充分利用这个小样本集?

这是处理小样本集的任何好的参考吗?p值显着性的变化?逐步选择方法的变化?使用诸如居中或对数之类的变换?

任何建议表示赞赏。

1个回答

由于您想从数据集中选择一些预测变量,我建议使用简单的线性回归L1惩罚或使用LASSO(惩罚线性回归)。您的案例适合以LASSO惩罚作为样本量的回归,n=50,以及预测变量的数量,p=30. 更改调整参数将选择您要选择的预测变量的数量。

如果您可以详细说明变量的分布,我可以更具体。

我不使用 SPSS,但这可以通过R使用glmnet同名包中的函数轻松完成。如果您查看手册,它包含一个通用示例(第一个,用于高斯案例),它将解决您的问题。我敢肯定, SPSS中必须存在类似的解决方案。