选择要包含在回归中的稀疏主成分的数量

机器算法验证 主成分分析 回归策略
2022-03-02 02:52:44

有没有人有选择回归模型中包含的稀疏主成分数量的方法的经验?

2个回答

虽然我对您的问题没有直接的见解,但我遇到了一些研究论文,您可能会感兴趣。也就是说,当然,如果我正确理解您在谈论稀疏 PCA主成分回归和相关主题。在这种情况下,这里是文件:

交叉验证结果还用于确定 LSI 空间的最佳维数。维度太少没有利用数据的预测能力;而过多的维度导致过拟合。图 4 显示了具有不同 LSI 维数的模型的平均误差分布。具有四维 LSI 空间的模型产生最少的平均错误数和最少的中位数错误,因此最终模型是使用四维 LSI 空间构建的。

关联

如果您不是 ieee 会员,我可以发布一份副本。

这是我在本科时写的一篇论文。我有一个问题,我需要决定在我的逻辑回归模型中使用多少维度(潜在语义索引类似于 PCA)。我所做的是选择一个指标(即使用 0.5 的标记概率时的错误率),并查看在不同维度上训练的不同模型的错误率分布。然后我选择了错误率最低的模型。您可以使用其他指标,例如 ROC 曲线下的面积。

您还可以使用逐步回归之类的方法来为您选择维度数。您具体执行哪种类型的回归?

顺便说一句,稀疏是什么意思?