更多信息;假设
- 您事先知道要选择多少个变量,并且您在 LARS 过程中设置了复杂性惩罚,例如具有非 0 系数的变量,
- 计算成本不是问题(变量的总数很小,比如 50),
- 所有变量 (y,x) 都是连续的。
在什么设置下,LARS 模型(即那些在 LARS 拟合中具有非零系数的变量的 OLS 拟合)与具有相同数量的系数但通过穷举搜索(a la regsubsets())找到的模型最不同?
编辑:我使用 50 个变量和 250 个观察值,其中实际系数取自标准高斯分布,但其中 10 个变量的“真实”系数为 0(并且所有特征彼此之间密切相关)。这些设置显然不好,因为两组选定变量之间的差异很小。这实际上是一个关于应该模拟哪种类型的数据配置以获得最大差异的问题。