在现实世界的问题中,我们经常使用连续变量和分类变量来构建预测模型。我最天真的预处理方法是:
- 将分类变量转换为整数。(男性,女性)-> 0,1 等
- 然后归一化所有特征,包括分类变量和连续变量
- 尝试不同的预测模型和参数...
我很久没有问关于天气的问题了,将分类变量转换为整数然后对其进行规范化是有意义的。我什至不考虑将这两种类型的变量放入任何模型并对其进行测试是否有意义。
我的问题是我们在预测期间是否像对待连续变量一样对待分类变量?
在现实世界的问题中,我们经常使用连续变量和分类变量来构建预测模型。我最天真的预处理方法是:
我很久没有问关于天气的问题了,将分类变量转换为整数然后对其进行规范化是有意义的。我什至不考虑将这两种类型的变量放入任何模型并对其进行测试是否有意义。
我的问题是我们在预测期间是否像对待连续变量一样对待分类变量?
这仍然是一个有争议的问题,它也很大程度上取决于您使用的算法。
例如,如果您使用 Lasso 进行特征选择,则所有特征都应具有相同的规模,并且建议对二元特征进行标准化(参见 Tibshirani 等人的《统计学习要素》:http://web.stanford .edu/~hastie/ElemStatLearn/)。
逻辑回归并不能从二进制变量的标准化中获益:您是否应该标准化二进制变量?.
有趣的是,Andrew Gelman 建议通过除以两倍标准差来标准化所有数值变量,并保留二元变量原样,以便您可以更轻松地解释和比较回归系数的影响:http://www.stat。 columbia.edu/~gelman/research/published/standardizing7.pdf。