在继续使用更先进的技术之前,我正在创建一个常规线性回归模型来建立基线。我将我的数据缩放如下:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train_std=pd.DataFrame(sc.fit_transform(X_train), columns=data.columns)
X_test_std=pd.DataFrame(sc.transform(X_test), columns=data.columns)
然而,这些变量大多有一个极端的偏斜(右尾),但我不知道如何对它们应用对数变换。
我会将日志转换应用于 X_train 和 X_test 数据集中的变量吗?在应用缩放之前我需要这样做吗?在将预测应用于 X_test 集方面,我只是想不出正确的方法来解决这个问题。有任何想法吗?