“归一化”是什么意思以及如何验证样本或分布是否归一化?

机器算法验证 数据转换 术语 正常化 标准化
2022-01-26 04:54:40

我有一个问题,它要求验证是否均匀分布(Uniform(a,b)) 被归一化。

  1. 一方面,对任何分布进行归一化意味着什么?
  2. 第二,我们如何去验证一个分布是否被归一化?

我通过计算理解

Xmeansd
我们得到了归一化的数据,但这里要求验证分布是否归一化。

3个回答

不幸的是,不同领域、同一领域内的不同人使用的术语不同,等等,所以我不确定在这里可以为你回答多少。您应该确保您知道您的讲师/教科书用于“规范化”的定义。但是,这里有一些常见的定义:

居中:

Xmean
标准化:
Xmeansd
标准化:
Xmin(X)max(X)min(X)
从这个意义上说,规范化会将您的数据重新调整为单位间隔。 标准化将您的数据转化为z-scores,正如@Jeff 所说。居中只是使您的数据的平均值等于0.

这里值得承认的是,这三个都是线性变换因此,它们不会改变分布的形状也就是说,有时人们称z-分数转换“正常化”并相信,因为z-分数与正态分布的关联,这使得他们的数据呈正态分布。事实并非如此(正如@Jeff 还指出的那样,您可以通过在前后绘制数据来判断)。例如,如果您有兴趣,可以使用Box-Cox 系列转换来更改数据的形状

至于如何验证这些转换,这取决于它的确切含义。如果他们只是为了检查代码是否正常运行,您可以检查均值、标准差、最小值和最大值。

通过使用您为样本中的每个分数提供的公式,您将它们全部转换为 z-scores

要验证您是否正确计算了所有 z 分数,请找到样本的新均值和标准差。如果平均值是0标准差是1,您已正确完成所有操作。

这样做的目的是将所有内容都放在相对于样本标准偏差的单位中。这可能对多种用途很有用,例如比较使用不同单位(可能是厘米和英寸)评分的两个不同数据集。

重要的是不要将这与询问分布是否正(即它是否接近高斯分布)混淆。

咨询了助教后,问题是是否

f(x)dx=1

在哪里f(x)在这种情况下是均匀的密度(a,b)。