归一化:除以平均值

机器算法验证 正常化
2022-03-24 17:22:55

我正在阅读各种论文,但我不明白所使用的三种规范化的含义。假设我在时间有区域我看到它通过以下方式标准化:Xi(t)it

  1. Z 分数:这以某种方式采用了调用时间序列的“形状”。Xi(t)=(Xi(t)μ(t))/σ(t)
  2. 除以平均值: ref这是我不知道的^^Xi(t)=Xi(t)/μ(t)
  3. 减去平均值:Xi(t)=Xi(t)μ(t)

2和3有什么区别?我为什么要除以平均值,它的“含义”是什么?

3个回答

减去均值除以均值的差值就是减法和除法的差值;大概你并不是真的在问数学。这里没有什么神秘之处,因为它只不过是一个统计类似物

  • 比尔比贝蒂高 5 厘米(减法)

  • 比尔的体重是他儿子鲍勃的两倍(师)

不同之处在于均值用作参考水平,而不是另一个值。我们应该强调的是

  • (Bill Betty) 或 (value mean) 保留测量单位

尽管

  • (Bill / Bob) 或 (value / mean) 与计量单位无关。

并且总是可以减去平均值,而除以平均值通常只有在保证平均值为正的情况下才有意义(或更广泛地说,没有两个值具有不同的符号并且平均值不能为零)。

再进一步(值平均值)/ SD 按标准偏差缩放,因此再次产生独立于测量单位的测量,也独立于变量的可变性。只要 SD 是积极的,它总是有可能的,它不会咬人。(如果 SD 为零,那么每个值都是相同的,并且在没有任何这些设备的情况下很容易进行详细总结。)这种重新缩放通常称为标准化,尽管该术语也确实是超载的。

请注意,均值的减法(没有或没有除以 SD)只是单位的变化,所以分布图和时间序列图(你问的)在前后看起来是一样的;数字轴标签会有所不同,但形状会保留。

选择通常是实质性的而不是严格统计的,因此问题在于哪种调整是一种有用的简化,或者实际上是否如此。

我要补充一点,您的问题反过来指出了这个论坛上经常提出的观点,即除非提供精确的定义,否则询问标准化是徒劳的;实际上,这比您提到的含义更多。

OP 的时空数据上下文在这里无关紧要。无论您是否拥有时间、空间或时空数据,这些原则都适用。

如果您正在考虑多年的数据点,则减去或除以特定年份的平均值会改变结合多年的图。在许多应用程序中,除以均值可能很有趣,我今天处理的就是其中之一。例如,如果您有兴趣观察一个社会人口群体如何分布/集中在一个城市的不同大小的社区中,您可以简单地查看每个社区中属于该群体的人口百分比。但是,如果您有兴趣观察集中模式如何随时间演变,您可能希望抵消居住在城市中的群体成员总数变化的影响(例如,因为您只对城市内的位置选择)。如果是这样的话,对于每个 t,将每个社区级别的百分比除以时间 t 中该群体在城市人口中的份额会很有帮助(如果社区的大小相同并覆盖整个城市,则等于平均百分比)。而且,当然,它可以有所作为!

我在研究中使用了除以均值法,因为它实际上有助于评估跨地区的不平等。

我正在做一项研究,主要是关于评估某些负担参数如何在一个地区的不同地区分布。这种归一化方法让我知道与某个区域的负担平均值相比有多少倍。值 2 表示一个地区承受 2 倍的平均负担(覆盖),值 0.5 表示一个地区承受一半的平均负担(下伏)。首选情况当然是每个区域的值都接近 1,这表明负担不均程度较低,因为所有区域的值已经接近平均值。

我可能真的迟到了,但希望我的回答能有所帮助。