我有大量变量要减少,我偶然发现了 Kuhn (2008) 的建议,即消除方差为零或接近零的变量:
[接近零方差意味着] 样本量中唯一值的比例很低(比如 10%)[...] [以及] 最普遍值的频率与第二普遍值的频率之比值很大(比如 20 左右)。如果这两个标准都是正确的,并且所讨论的模型容易受到这种类型的预测变量的影响,那么从模型中删除变量可能是有利的。
-- Kuhn, M., & Johnson, K. (2013)。应用预测建模,纽约,纽约:施普林格。
这对我来说很有意义,它已被用于其他研究,并且它完全可以满足我对我的数据的期望。然而,据我所知,库恩没有为使用这种技术提供任何理由(无论是理论上的还是经验上的),而且我找不到任何其他支持这一点的文献。
有谁知道证明这种技术为什么有效的其他来源?