在 sklearn 中,我使用 MinMaxScaler 对数据进行规范化。我正在关注的示例使用
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
X_train, X_test, y_train, y_test = train_test_split(X_crime, y_crime,random_state = 0)
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
现在我想知道为什么这是在trainandtest集上单独完成的,而不是在 X_crime 数据帧上,例如:
X_crime_scaled = scaler.fit_transform(X_crime)
X_train_scaled, X_test_scaled, y_train, y_test = train_test_split(X_crime_scaled, y_crime, random_state = 0)
R 平方分数更高,使用此选项我知道我的所有值都在 0 和 1 之间标准化。