特征缩放和均值归一化

数据挖掘 数据清理 梯度下降 线性回归
2022-02-11 10:27:25

在我的机器学习课上讨论了这两种方法,并提到两者都应该使用。我对此有几个问题:

1)我可以混合搭配这两种方法吗?例如,特征量表 x1 和均值归一化 x2?

2) 您如何确定应用这些选项中的哪一个?似乎两者都可以完成提高收敛速度的任务......我想你只需要知道你的数据集就可以了解哪些会可靠地降低你的值,同时尽可能少地留下异常值?

2个回答

均值归一化是特征缩放的一种形式,因此这并不是两种不同的方法。特征缩放只是一个更笼统的术语。您需要使用什么样的特征缩放,例如均值归一化,最终取决于数据。

我同意现有的答案,即特征缩放是平均归一化、残差归一化等技术的超集。

因此,假设通过特征缩放,您指的是平均标准化以外的技术,我会尝试回答您的问题:

1)我可以混合搭配这两种方法吗?例如,特征量表 x1 和均值归一化 x2?

在大多数情况下没有通常,只使用一种归一化技术,它几乎可以满足需要。除了该论点之外,还应注意任何规范化技术都会在数据记录中引入重复(不一定是冗余重复)。

因此,在大多数情况下,几乎单一的标准化技术就足够了。

2) 您如何确定应用这些选项中的哪一个?似乎两者都可以完成提高收敛速度的任务......我想你只需要知道你的数据集就可以了解哪些会可靠地降低你的值,同时尽可能少地留下异常值?

的,你是对的。技术的选择取决于数据。特征缩放(和归一化)过程属于数据清洗过程。因此,它是在为分析过程选择相关数据之后立即完成的。