通过移除方差接近于零的预测变量来证明特征选择

机器算法验证 回归 特征选择
2022-04-07 12:13:38

我有大量变量要减少,我偶然发现了 Kuhn (2008) 的建议,即消除方差为零或接近零的变量:

[接近零方差意味着] 样本量中唯一值的比例很低(比如 10%)[...] [以及] 最普遍值的频率与第二普遍值的频率之比值很大(比如 20 左右)。如果这两个标准都是正确的,并且所讨论的模型容易受到这种类型的预测变量的影响,那么从模型中删除变量可能是有利的。

-- Kuhn, M., & Johnson, K. (2013)。应用预测建模,纽约,纽约:施普林格。

这对我来说很有意义,它已被用于其他研究,并且它完全可以满足我对我的数据的期望。然而,据我所知,库恩没有为使用这种技术提供任何理由(无论是理论上的还是经验上的),而且我找不到任何其他支持这一点的文献。

有谁知道证明这种技术为什么有效的其他来源?

1个回答

根据我的经验,我经常删除接近零方差的预测变量(或只有一个值的预测变量),因为它们被认为具有较低的预测能力。在某些情况下,此类预测变量还可能导致数值问题并导致模型崩溃。这可能是由于除以零(如果在数据中执行标准化)或由于数值精度问题。这篇论文 ( http://www.jstatsoft.org/v28/i05/paper ) 提供了一些推理,但在第 3 页和第 4 页没有严格证明。

我发现有用的处理接近零预测变量的示例是:https ://tgmstat.wordpress.com/2014/03/06/near-zero-variance-predictors/

希望这可以帮助。