我有一个来自 Kaggle 的借贷俱乐部数据集;它包含许多不同的列:例如虚拟变量、年份、贷款金额...等我想规范化训练和测试集中的数据,但我必须使用训练集的最小值和最大值来防止测试集的数据泄露。我的问题是:如果在测试集中甚至当我尝试预测新数据点时,一个大于最大值或小于最小值的值,我使用训练集中的相同值对其进行归一化, 这是正确的吗?我可以让模型正常处理这个值吗?
这是我用来规范化的代码
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)