许多消息来源表明,在统计分析之前对连续变量进行离散化(分类)会产生许多负面影响(下面的参考文献样本 [1]-[4])。
相反,[5] 表明,已知一些机器学习技术在离散化连续变量时会产生更好的结果(还注意到有监督的离散化方法表现更好)。
我很好奇从统计角度来看,这种做法是否有任何被广泛接受的好处或理由?
特别是,在 GLM 分析中离散连续变量是否有任何理由?
[1] Royston P、Altman DG、Sauerbrei W. 在多元回归中对连续预测变量进行二分法:一个坏主意。统计医学 2006;25:127-41
[2] Brunner J,奥斯汀 PC。当自变量被错误测量时,多元回归中 I 类错误率的膨胀。2009 年加拿大统计杂志;37(1):33-46
[3] 小欧文,麦克莱兰 GH。二分法连续预测变量的负面后果。营销研究杂志 2003;40:366–371。
[4] 小哈雷尔 FE。对连续变量进行分类引起的问题。http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous,2004 年。于 2004 年 9 月 6 日访问
[5] Kotsiantis,S.;Kanellopoulos, D. “离散化技术:最近的一项调查”。GESTS 计算机科学与工程国际汇刊 32(1):47-58。