机器算法验证 - 小数据集的多元回归 - 吾爱随笔录

我有一个项目案例研究数据集，用于政府机构支持决策活动的新型研究方法。我的任务是根据过去的经验为未来的项目开发一种估算方法，以进行估算。

我的数据集仅限于 50 个案例。我记录了 30 多个（潜在）预测变量和一个响应变量（即完成项目所需的时间）。

并非所有预测变量都很重要，使用逐步选择技术，我预计预测变量的数量可能在 5-10 个变量范围内。尽管我正在努力使用 PASW (SPSS) 等工具中的标准方法来获得预测变量集。

我很清楚所有关于样本量和预测变量与案例比率的经验法则的材料。我的困境是，收集 50 个案例需要将近 10 年的时间，所以它几乎可以做到。

我的问题是我应该怎么做才能充分利用这个小样本集？

这是处理小样本集的任何好的参考吗？p值显着性的变化？逐步选择方法的变化？使用诸如居中或对数之类的变换？

任何建议表示赞赏。