我正在阅读各种论文,但我不明白所使用的三种规范化的含义。假设我在时间有区域。我看到它通过以下方式标准化:
- Z 分数:。这以某种方式采用了调用时间序列的“形状”。
- 除以平均值: ref。这是我不知道的^^
- 减去平均值:。
2和3有什么区别?我为什么要除以平均值,它的“含义”是什么?
我正在阅读各种论文,但我不明白所使用的三种规范化的含义。假设我在时间有区域。我看到它通过以下方式标准化:
2和3有什么区别?我为什么要除以平均值,它的“含义”是什么?
减去均值和除以均值的差值就是减法和除法的差值;大概你并不是真的在问数学。这里没有什么神秘之处,因为它只不过是一个统计类似物
比尔比贝蒂高 5 厘米(减法)
比尔的体重是他儿子鲍勃的两倍(师)
不同之处在于均值用作参考水平,而不是另一个值。我们应该强调的是
尽管
并且总是可以减去平均值,而除以平均值通常只有在保证平均值为正的情况下才有意义(或更广泛地说,没有两个值具有不同的符号并且平均值不能为零)。
再进一步(值平均值)/ SD 按标准偏差缩放,因此再次产生独立于测量单位的测量,也独立于变量的可变性。只要 SD 是积极的,它总是有可能的,它不会咬人。(如果 SD 为零,那么每个值都是相同的,并且在没有任何这些设备的情况下很容易进行详细总结。)这种重新缩放通常称为标准化,尽管该术语也确实是超载的。
请注意,均值的减法(没有或没有除以 SD)只是单位的变化,所以分布图和时间序列图(你问的)在前后看起来是一样的;数字轴标签会有所不同,但形状会保留。
选择通常是实质性的而不是严格统计的,因此问题在于哪种调整是一种有用的简化,或者实际上是否如此。
我要补充一点,您的问题反过来指出了这个论坛上经常提出的观点,即除非提供精确的定义,否则询问标准化是徒劳的;实际上,这比您提到的含义更多。
OP 的时空数据上下文在这里无关紧要。无论您是否拥有时间、空间或时空数据,这些原则都适用。
如果您正在考虑多年的数据点,则减去或除以特定年份的平均值会改变结合多年的图。在许多应用程序中,除以均值可能很有趣,我今天处理的就是其中之一。例如,如果您有兴趣观察一个社会人口群体如何分布/集中在一个城市的不同大小的社区中,您可以简单地查看每个社区中属于该群体的人口百分比。但是,如果您有兴趣观察集中模式如何随时间演变,您可能希望抵消居住在城市中的群体成员总数变化的影响(例如,因为您只对城市内的位置选择)。如果是这样的话,对于每个 t,将每个社区级别的百分比除以时间 t 中该群体在城市人口中的份额会很有帮助(如果社区的大小相同并覆盖整个城市,则等于平均百分比)。而且,当然,它可以有所作为!
我在研究中使用了除以均值法,因为它实际上有助于评估跨地区的不平等。
我正在做一项研究,主要是关于评估某些负担参数如何在一个地区的不同地区分布。这种归一化方法让我知道与某个区域的负担平均值相比有多少倍。值 2 表示一个地区承受 2 倍的平均负担(覆盖),值 0.5 表示一个地区承受一半的平均负担(下伏)。首选情况当然是每个区域的值都接近 1,这表明负担不均程度较低,因为所有区域的值已经接近平均值。
我可能真的迟到了,但希望我的回答能有所帮助。