处理训练和测试数据

数据挖掘 机器学习
2021-09-23 01:34:52

我有X numpy array我的特点和y numpy array我的目标。我将它分为训练数据和测试数据。QnA我读过的许多人中,他们只说要preprocess分别训练和测试。我假设我只对我的特征 (X) 训练和测试数据而不是目标 (y) 执行此操作。我们也是preprocess目标吗?

2个回答

我们是否也对目标进行预处理?

有时。最常见的例子是为回归缩放目标变量,这对某些算法是有益的。另一个例子是当目标变量的分布偏斜并通过对数变换处理为正态分布时。

不一定,但取决于您的目标(y)是什么以及您尝试使用哪种算法/方法。它还取决于您的数据质量。

我想到的几个例子:

  1. 如果您的目标值本质上是分类的和多标签的,它需要是一种热编码,还可以考虑添加额外的类别来解释未知类

  2. 如果您的目标是一个连续变量,则某些转换可能会根据数据分布和质量对数转换效果更好(如果不存在负数),

  3. 当不同的特征和目标处于非常不同的尺度时,会采用归一化/最小最大缩放等。

https://machinelearningmastery.com/how-to-transform-target-variables-for-regression-with-scikit-learn/