对连续变量进行无监督离散化的理由是什么?

机器算法验证 机器学习 广义线性模型 分类数据 分箱
2022-03-16 17:28:10

许多消息来源表明,在统计分析之前对连续变量进行离散化(分类)会产生许多负面影响(下面的参考文献样本 [1]-[4])。

相反,[5] 表明,已知一些机器学习技术在离散化连续变量时会产生更好的结果(还注意到有监督的离散化方法表现更好)。

我很好奇从统计角度来看,这种做法是否有任何被广泛接受的好处或理由?

特别是,在 GLM 分析中离散连续变量是否有任何理由?



[1] Royston P、Altman DG、Sauerbrei W. 在多元回归中对连续预测变量进行二分法:一个坏主意。统计医学 2006;25:127-41

[2] Brunner J,奥斯汀 PC。当自变量被错误测量时,多元回归中 I 类错误率的膨胀。2009 年加拿大统计杂志;37(1):33-46

[3] 小欧文,麦克莱兰 GH。二分法连续预测变量的负面后果。营销研究杂志 2003;40:366–371。

[4] 小哈雷尔 FE。对连续变量进行分类引起的问题。http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous,2004 年。于 2004 年 9 月 6 日访问

[5] Kotsiantis,S.;Kanellopoulos, D. “离散化技术:最近的一项调查”。GESTS 计算机科学与工程国际汇刊 32(1):47-58。

2个回答

统计模型的目的是模拟(近似)未知的潜在现实。当您对自然连续的事物进行离散化时,您是在说一系列预测变量的所有响应都完全相同,然后下一个区间会突然跳跃。您是否真的相信自然界的工作原理是,x 值 9.999 和 10.001 之间的响应差异很大,而 9.001 和 9.999 之间没有差异(假设其中一个区间是 9-10)?我想不出任何我认为合理地以这种方式工作的自然过程。

现在有许多以非线性方式起作用的自然过程,预测变量从 8 到 9 的变化可能会与从 10 到 11 的变化产生非常不同的响应变化。因此,离散化的预测变量可能比线性关系,但那是因为它允许更多的自由度。但是,还有其他方法可以允许额外的自由度,例如多项式或样条曲线,这些选项允许我们进行惩罚以获得一定程度的平滑度并保持更好地近似底层自然过程的东西。

编辑:由于我看到的其他答案的趋势,一个简短的免责声明:我的答案是出于机器学习的角度,而不是统计建模。

  • 某些模型,例如朴素贝叶斯,不能使用连续特征。离散化特征可以帮助他们更好地使用它们。通常,只要离散化不是太残酷,不依赖于特征的“数字”特征(想到决策树)的模型就不会受到太大影响。然而,如果区分太重要,其他一些模型的表现将大大落后。例如,GLM 绝对不会从该过程中获得任何好处。

  • 在某些情况下,当内存/处理时间成为限制因素时,特征离散化允许聚合数据集,减少其大小和内存/计算时间消耗。

所以底线是,如果您不受计算限制,并且如果您的模型不是绝对需要离散特征,则不要运行特征离散化。否则,无论如何考虑一下。