在拟合逻辑回归之前是否需要标准化?

机器算法验证 回归 物流 标准化
2022-01-30 02:33:06

我的问题是,在拟合逻辑回归之前,我们是否需要标准化数据集以确保所有变量在 [0,1] 之间具有相同的尺度。公式为:

ximin(xi)max(xi)min(xi)

我的数据集有 2 个变量,它们对两个通道描述相同的事物,但音量不同。假设是两个商店的客户访问次数,这里是客户是否购买。因为客户在购买之前可以访问这两家商店,或者两次第一家商店,一次第二家商店。但是第一家商店的顾客总访问量是第二家商店的 10 倍。当我拟合这个逻辑回归时,没有标准化, coef(store1)=37, coef(store2)=13; 如果我标准化数据,那么coef(store1)=133, coef(store2)=11. 像这样的东西。哪种方法更有意义?

如果我正在拟合决策树模型怎么办?我知道树结构模型不需要标准化,因为模型本身会以某种方式对其进行调整。但是请与大家一起检查。

3个回答

逻辑回归不需要标准化。标准化特征的主要目标是帮助用于优化的技术的收敛。例如,如果您使用 Newton-Raphson 来最大化似然性,则对特征进行标准化会使收敛更快。否则,您可以在不对特征进行任何标准化处理的情况下运行逻辑回归。

如果您将逻辑回归与 LASSO 或岭回归(如 Weka Logistic类)一起使用,您应该这样做。正如Hastie、Tibshirani 和 Friedman指出的那样(pdf 第 82 页或本书第 63 页):

岭解在输入缩放下不是等变的,因此通常在求解之前对输入进行标准化。

这个线程也可以

@Aymen 是对的,您不需要为逻辑回归标准化您的数据。(有关更一般的信息,阅读此 CV 线程可能会有所帮助:何时应该将数据居中以及何时应该标准化?;您可能还注意到,您的转换通常被称为“标准化”,请参阅:如何验证分布是否标准化?)让我谈谈问题中的其他一些问题。

值得注意的是,在逻辑回归中,您的系数表示预测变量中一个单位的变化对“成功”的对数几率的影响。转换变量(例如通过标准化或规范化)的效果是改变我们在模型上下文中所谓的“单位”。您的原始数据在原始指标中的一些单位中有所不同。标准化后,您的数据范围为也就是说,一个单位的变化现在意味着从最低值的观察值变为最高值的观察值。对数成功几率的增加量没有改变。根据这些事实,我怀疑您的第一个变量 ( ) 跨越x01store1133/373.6原始单位,而您的第二个变量 ( store2) 仅跨越个原始单位。 11/130.85