我有一个概念问题,了解如何交叉验证逐步逻辑回归。每次划分训练集时,很可能会根据 penter 和 premove 标准选择不同的特征。我应该每次都使用不同的选择模型进行交叉验证,还是应该找到一个基本事实并继续进行交叉验证?我认为后者听起来更合理,但我担心在某个地方我会损害测试失明。帮助表示赞赏。
如何交叉验证逐步逻辑回归?
机器算法验证
物流
交叉验证
特征选择
2022-03-08 11:03:16
2个回答
统计学习的要素非常清楚地给出了答案(第二版,第 246 页):
通常,对于多步建模过程,交叉验证必须应用于整个建模步骤序列。特别是,在应用任何选择或过滤步骤之前,必须“排除”样本。有一个条件:可以在样本被遗漏之前完成初始的无监督筛选步骤。
在这种类型的分析中,问题在于从您的样本中推断出的“基本事实”可能不代表总体中的“基本事实”。交叉验证可以帮助将结果推广到总体,但前提是对每个验证折叠都重复建模过程的所有步骤。
正如我和@user777 所建议的那样,如果您使用逐步选择以外的方法来处理相关的预测变量,您可能会做得更好。对于高度相关的预测变量,逐步选择几乎肯定会导致对预测变量的选择从折叠到折叠高度不同。正则化方法可以更好地处理相关预测变量。例如,岭回归本质上是一种主成分回归,其成分具有权重,因此高度相关的变量往往会一起出现在相同的成分中。
1970 年代打来电话。它希望恢复其过时、破旧的逐步回归。
1990 年代打来电话。它希望您使用在统计学习要素中提倡的特别启发式方法,包括套索!!!!,正如 EdM 的回答中所引用的那样。
新千年来了。它告诉您忘记所有那些临时的废话,并采用系统的混合整数优化方法来选择最佳子集。这是要走的路,宝贝。“通过现代优化镜头进行最佳子集选择”,Bertsimas,King,Mazumder。它将把统计学习要素的建议从水中吹走。当然,目前可能还没有罐装的 R 包可供使用。
其它你可能感兴趣的问题