有几种方法可以标准化数据,其中包括:
min-max,z-score 和 scale decimal。
我可以使用任何人吗?或者我应该以什么标准选择其中之一?
有几种方法可以标准化数据,其中包括:
min-max,z-score 和 scale decimal。
我可以使用任何人吗?或者我应该以什么标准选择其中之一?
您的问题没有具体答案,这完全取决于您使用的是哪种算法,或者换句话说,您将如何使用标准化数据。根据我的经验,我发现 zscore 归一化表现最好,尤其是在您使用 svm 或 nn 时。
规范化是一种在机器学习中经常使用的数据准备技术。将数据集中的列转换为相同比例的过程称为标准化。每个数据集都不需要为机器学习进行标准化。仅当特性范围不同时才需要。
当您不知道数据的分布或者当您知道它不是 Gaussian时,归一化是一种明智的应用方法。当您的数据具有可变尺度并且您使用的技术(例如 k 近邻和人工神经网络)不对数据的分布做出假设时,归一化非常有用。
四种常见的归一化技术可能有用:
请参阅 Google Developer's Data Preparation and Feature Engineering for Machine Learning中的汇总表,以选择正确的规范化技术。
| 归一化技术 | 公式 | 何时使用 |
|---|---|---|
| 线性缩放 | 当特征或多或少均匀分布在固定范围内时。 | |
| 剪裁 | 如果 > max,则。如果,则 | 当特征包含一些极端异常值时。 |
| 日志缩放 | 当特征符合幂律时。 | |
| Z分数 | 当特征分布不包含极端异常值时。 |
有关详细说明,请在此处查看