我目前正在从事一个研究项目,其中心问题是哪些特征驱动了不同模型的预测。主要问题是,这些特征之间存在高(多)共线性。
想象一个具有大约 200 个不同特征的设置,这些特征都是帮助预测相同因变量的潜在候选者。过去,这些特征中的 5 个小子集的相关性只是通过将它们放入线性回归模型并分析 R2 和系数的显着性来简单地分析。相反,我想评估完整的 200 个特征的重要性,同时摆脱这些回归模型中的强制线性关系,即我不想事先规定任何特定的函数关系。因此,我训练人工神经网络,并希望将它们的整体样本外预测性能和单个特征重要性与多元线性回归的结果进行比较。
我知道特征重要性的模型独立度量,允许比较不同类型模型的重要性(例如排列重要性)。然而,当特征之间存在高度的多重共线性时,问题来自于这些度量是非常不可靠的。例如,对于两个高度相关的特征,神经网络可能主要依赖于两个预测变量中的一个,即使两者都具有给定任务的相关预测能力。当然,同样的问题也会出现在线性模型中。当您只对整体模型性能感兴趣时,这实际上不是问题。但是,我的具体研究问题专门涉及了解哪些特征带有预测因变量的相关信息(当不预先规定任何函数形式时)。
到目前为止,我提出的唯一可能的解决方案是通过取其重要性的最大值或其与具有重要性的另一个特征时间的任何相关乘积来指定一个特征的重要性(例如,取以下两者中的较大者:特征重要性特征 i 与特征 j 的特征重要性 * i 和 j 之间的相关性)。但是,虽然我什至不确定这是否是一种“科学”合适的方法,但它也确实只解决了成对相关的问题。
在高(多)共线性的情况下,您的首选方法是为特征重要性创建可靠的度量是什么?您能否指出我之前可能忽略的有关该主题的研究的正确方向?
谢谢你的帮助!