如何选择归一化技术?

数据挖掘 机器学习 数据清理 正常化
2022-02-27 03:59:55

有几种方法可以标准化数据,其中包括:

min-max,z-score 和 scale decimal。

我可以使用任何人吗?或者我应该以什么标准选择其中之一?

2个回答

您的问题没有具体答案,这完全取决于您使用的是哪种算法,或者换句话说,您将如何使用标准化数据。根据我的经验,我发现 zscore 归一化表现最好,尤其是在您使用 svm 或 nn 时。

正常化

规范化是一种在机器学习中经常使用的数据准备技术。将数据集中的列转换为相同比例的过程称为标准化。每个数据集都不需要为机器学习进行标准化。仅当特性范围不同时才需要。

当您不知道数据的分布或者当您知道它不是 Gaussian时,归一化是一种明智的应用方法。当您的数据具有可变尺度并且您使用的技术(例如 k 近邻和人工神经网络)不对数据的分布做出假设时,归一化非常有用。

四种常见的归一化技术可能有用:

  • 缩放到一个范围
  • 剪裁
  • 对数缩放
  • z分数

请参阅 Google Developer's Data Preparation and Feature Engineering for Machine Learning中的汇总表,以选择正确的规范化技术。

归一化技术 公式 何时使用
线性缩放 x=(xxmin)(xmaxxmin) 当特征或多或少均匀分布在固定范围内时。
剪裁 如果 > max,则如果,则xx=maxx<minx=min 当特征包含一些极端异常值时。
日志缩放 x=log(x) 当特征符合幂律时。
Z分数 x=(xμ)/σ 当特征分布不包含极端异常值时。

有关详细说明,请在此处查看