标准化和标准化有什么区别?

机器算法验证 描述性统计 正常化 标准化
2022-01-15 12:22:12

在工作中,我们正在讨论这个问题,因为我的老板从未听说过正常化。在线性代数中,归一化似乎是指向量除以其长度。在统计学中,标准化似乎是指减去平均值然后除以其 SD。但它们似乎也可以与其他可能性互换。

当创建某种通用分数时,它构成了不同的指标,它们有不同的手段和不同的 SD,你会标准化、标准化还是其他什么?一个人告诉我,这只是将每个指标分别除以它们的 SD 的问题。然后将两者相加。这将产生一个通用分数,可用于判断这两个指标。2

例如,假设您有乘地铁上班的人数(在纽约市)和开车上班的人数(在纽约市)。

Trainx
Cary

如果你想创建一个通用分数来快速报告交通波动,你不能只添加因为会有更多的人乘坐火车。纽约市有 800 万人,外加游客。每天有数百万人乘坐火车,数十万人乘坐汽车。因此,它们需要转换为相似的比例才能进行比较。mean(x)mean(y)

如果mean(x)=8,000,000

mean(y)=800,000

你会把 &归一化然后求和吗?你会标准化 &然后求和吗?或者您会将每个除以各自的 SD 然后相加吗?为了得到一个在波动时代表总流量波动的数字。xyxy

任何文章或书籍章节供参考将不胜感激。谢谢!

这也是我正在尝试做的另一个例子。

想象一下,你是一名大学院长,你正在讨论入学要求。您可能希望学生至少具有一定的 GPA 和一定的考试成绩。如果他们都在相同的规模上会很好,因为这样你就可以把两者加在一起,然后说,“任何至少 7.0 的人都可以被录取。” 这样,如果一个潜在学生的 GPA 为 4.0,他们可能会得到低至 3.0 的考试成绩并仍然被录取。相反,如果某人的 GPA 为 3.0,他们仍然可以以 4.0 的考试成绩被录取。

但事实并非如此。ACT 是 36 分,大多数 GPA 都是 4.0(有些是 4.3,是的,很烦人)。由于我不能只添加 ACT 和 GPA 来获得某种通用分数,我该如何转换它们以便添加它们,从而创建通用录取分数。然后作为院长,我可以自动接受任何分数超过某个阈值的人。甚至自动接受所有分数在前 95% 以内的人……诸如此类。

那会是正常化吗?标准化?或者只是将每个除以他们的 SD 然后求和?

4个回答

归一化将值重新缩放到 [0,1] 的范围内。在所有参数都需要具有相同的正比例的某些情​​况下,这可能很有用。但是,数据集中的异常值会丢失。

Xchanged=XXminXmaxXmin

标准化重新调整数据的平均值 ( ) 为 0,标准差 ( ) 为 1(单位方差)。μσ

Xchanged=Xμσ

对于大多数应用程序,建议进行标准化。

在商业世界中,“标准化”通常意味着值的范围“标准化为从 0.0 到 1.0”。“标准化”通常意味着值的范围被“标准化”以衡量该值与其平均值有多少标准偏差。然而,并不是每个人都会同意这一点。最好在使用它们之前解释你的定义。

无论如何,您的转换需要提供一些有用的东西。

在您的火车/汽车示例中,您是否知道每个值与平均值有多少标准差?如果您将这些“标准化”度量相互绘制为 xy 图,您可能会看到相关性(参见右侧的第一张图):

http://en.wikipedia.org/wiki/Correlation_and_dependence

如果是这样,这对你来说意味着什么吗?

就您的第二个示例而言,如果您想将 GPA 从一个尺度“等同”到另一个尺度,这些尺度有什么共同点?换句话说,您如何将这些最小值转换为等价,而将最大值转换为等价?

这是“规范化”的示例:

规范化链接

一旦您以可互换的形式获得 GPA 和 ACT 分数,那么以不同的方式衡量 ACT 和 GPA 分数是否有意义?如果是这样,什么加权对你来说意味着什么?

编辑 1 (05/03/2011) ========================================= =

首先,我会查看上面whuber建议的链接。底线是,在您的两个双变量问题中,您将不得不提出一个变量与另一个变量的“等价性”。而且,一种区分一个变量和另一个变量的方法。换句话说,即使您可以将其简化为简单的线性关系,您也需要“权重”来区分一个变量和另一个变量。

这是一个两变量问题的示例:

多属性实用程序

从最后一页开始,如果您可以说标准化的火车交通U1(x)与标准化的汽车交通U2(y)是“相加独立的”,那么您也许可以通过一个简单的等式逃脱,例如:

U(x, y) = k1*U1(x) + (1 - k1)*U2(y)

k1=0.5 表示您对标准化的汽车/火车交通无动于衷。较高的 k1 意味着火车交通U1(x)更重要。

但是,如果这两个变量不是“加法独立的”,那么您将不得不使用更复杂的方程。第 1 页显示了一种可能性:

U(x, y) = k1*U1(x) + k2*U2(y) + (1-k1-k2)*U1(x)*U2(y)

无论哪种情况,您都必须想出一个U(x, y)有意义的实用程序。

相同的一般加权/比较概念适用于您的 GPA/ACT 问题。即使它们是“标准化”而不是“标准化”。

最后一期。我知道您不会喜欢这个,但“附加独立”一词的定义在以下链接的第 4 页。我寻找了一个不那么令人讨厌的定义,但我找不到。你可能会四处寻找更好的东西。

加法独立

引用链接:

Intuitively, the agent prefers being both healthy and wealthy
more than might be suggested by considering the two attributes
separately. It thus displays a preference for probability
distributions in which health and wealth are positively
correlated.

正如此响应顶部所建议的,如果您在 xy 图上绘制标准化火车交通与标准化汽车交通,您可能会看到相关性。如果是这样,那么你就会被上面的非线性效用方程或类似的东西困住。

答案很简单,但你不会喜欢它:这取决于。如果您对两个分数的 1 个标准差的值相等,那么标准化就是要走的路(注意:实际上,您是在进行学生化,因为您要除以总体 SD 的估计值)。

如果不是,那么标准化很可能是一个很好的第一步,之后您可以通过乘以一个精心挑选的因素来赋予其中一个分数更多的权重。

要解决 GPA/ACT 或火车/汽车问题,为什么不使用几何平均值

n√(a1 × a2 × ... × an)

其中a*是分布的值,是分布n的指数。

这种几何平均值确保每个值尽管有其规模,但对平均值的贡献相同。在几何平均值中查看更多信息