这是一个很好的问题,它往往会触及更多所谓的集成学习器和模型平均(我将在下面提供链接):
当您处于高维设置中时,您的解决方案的稳定性(即选择了哪些特征/变量)可能会缺乏,因为单个模型可能会在许多携带相同信号的共线、可交换变量中选择 1 个(众多原因之一)。下面是一些关于如何解决这个问题的策略。
例如,在贝叶斯模型平均中,
霍廷,詹妮弗 A.,等人。“贝叶斯模型平均:教程”。统计科学(1999):382-401。
你构建了许多模型(比如 100 个),每个模型都是用原始特征的一个子集构建的。然后,每个单独的模型确定它看到的哪些变量是显着的,并且每个模型都通过数据似然性进行加权,从而为您提供了一个很好的总结,即如何以“交叉验证”之类的方式“判断”变量的有效性。您先验地知道某些特征是高度相关的,您可以引入一个采样方案,使它们永远不会一起选择(或者如果您有块相关结构,那么您可以在方差-协方差矩阵中选择不同块的元素)
在机器学习类型设置中:查看“集成特征选择”。本文(一例)
诺伊曼、乌苏拉、尼基塔根泽和多米尼克海德。“EFS:作为 R 包和 Web 应用程序实现的集成特征选择工具。” 生物数据挖掘 10.1(2017):21。
确定各种“重要性”指标的特征重要性,以进行最终的特征选择。
我想说机器学习路线可能是更好的 b/c 线性模型(w/ 特征选择)在 p = nb/c 的优化重新制定时饱和(参见这篇文章如果 p > n,套索最多选择 n变量)。但是,只要您能够定义并证明一个良好的客观标准来“交叉验证”特征选择,那么您就有了一个良好的开端。
希望这可以帮助!