标准化与缩放

机器算法验证 数据转换 正态假设 正常化
2022-02-11 07:09:01

数据“标准化”和数据“缩放”有什么区别?到目前为止,我认为这两个术语都指的是同一个过程,但现在我意识到还有更多我不知道/不理解的东西。此外,如果归一化和缩放之间存在差异,我们什么时候应该使用归一化而不是缩放,反之亦然?

请举例说明。

4个回答

我不知道“官方”定义,即使有,你也不应该相信它,因为你会看到它在实践中的使用不一致。

话虽如此,统计中的缩放通常意味着 形式的线性变换。f(x)=ax+b

规范化可以意味着应用转换,以便转换后的数据大致呈正态分布,但也可以简单地意味着将不同的变量放在一个共同的尺度上。标准化,即减去均值并除以标准差,是后面使用的一个例子。如您所见,它也是缩放的一个示例。第一个示例是获取对数正态分布数据的日志。

但是你应该带走的是,当你阅读它时,你应该寻找对作者所做的更准确的描述。有时你可以从上下文中得到它。

缩放是关于使数字感觉正确的个人选择,例如在零和一或一到一百之间。例如,将以毫米为单位的数据转换为米,因为它更方便,或者将英制转换为公制。

虽然归一化是关于缩放到外部“标准” - 本地规范 - 例如移除平均值并除以样本标准偏差,例如,以便您的排序数据可以与累积正态或累积泊松进行比较,或任何。

因此,如果讲师或经理希望数据“标准化”,则意味着“以我的方式重新缩放”;-)

我不知道你是不是这个意思,但我看到很多人提到规范化意味着数据标准化。标准化正在转换您的数据,使其具有均值 0 和标准差 1:

x <- (x - mean(x)) / sd(x)

我还看到人们使用术语标准化进行数据缩放,例如将数据转换为 0-1 范围:

x <- (x - min(x)) / (max(x) - min(x))

这可能会令人困惑!

这两种技术都有其优点和缺点。当缩放具有太多异常值的数据集时,您的非异常值数据可能会以非常小的间隔结束。因此,如果您的数据集有太多异常值,您可能需要考虑对其进行标准化。尽管如此,当你这样做时,你最终会得到负面数据(有时你不想要那个)和无限数据(你可能也不想要那个)。

居中意味着从变量中减去随机变量的平均值。即 x -xi

缩放意味着将变量除以其标准偏差。即 xi /s

两者的结合称为标准化或标准化。即 x-xi/s