Box-Cox 变换如何有效?

机器算法验证 数据转换
2022-03-28 04:21:42

Box-Cox 变换将我们的数据转换为正态分布。

这怎么可能是一种适当的技术?如果我们的数据不是来自正态分布怎么办?有人怎么可能只是盲目地应用 Box-Cox 变换?

换个说法:如果我们的数据不是正态分布的,为什么还要应用 Box-Cox 变换?

当我们的数据应该是正态分布时,是否使用 Box-Cox 变换,但不是吗?

1个回答

这里有一个陈述和六个问题。

但首先代表各地的同名和统计的持续历史,请注意正确的名称“Box-Cox”是标准的。

Box-Cox 变换将我们的数据转换为正态分布。

最多,这就是目标。它不能总是实现,即使是近似的。例如,本质上是一系列尖峰的分布除了另一系列尖峰外,不能转换为任何东西。

这怎么可能是一种适当的技术?

反之,在什么意义上是不恰当的?转换的一般思想是,它可以更容易地查看和分析在转换的尺度上发生的事情,而特别是有许多技术可以提供一些对正态分布的近似,如果不是假设为真的条件,正如人们常说的,那么至少是比较理想的总结和推理条件。请注意,广义线性模型借用了在变换尺度上进行拟合的想法,而实际上并未强制变换响应变量。

如果我们的数据不是来自正态分布怎么办?

目前尚不清楚这里的难题是什么。正是当数据不是正态分布时,才会出现是否存在简单的正态转换的问题。

有人怎么可能只是盲目地应用 Box-Cox 变换?

如上。有些人盲目地应用他们使用的每一种统计技术,而统计人员往往不赞成而不是赞成。同时,生命是短暂的,并且在大多数技术使用中都存在信任因素,因为没有人可以推导出并证明他们所做的一切。

其他问题看起来像改写的相同问题,否则我错过了细微差别。但反过来,我将重复在我看来一个简单的关键:正态分布通常是一种理想,但即使不满足该理想,许多技术也能很好地工作。

在这个距离上,1964 年 Box-Cox 公式的主要贡献似乎是

  1. 数据本身会告诉您哪种转换最合适的想法。(我们应该补充一点,有时没有任何转换有足够的帮助,值得应用。)Box 和 Cox 以各种方式形式化了数据引导的转换选择,但重要的一点是隐含或明确地系统地尝试各种转换。(很多时候,搜索转换似乎是在黑暗中刺痛,当人们告诉你他们已经尝试过对数和平方时,但没有任何效果。)

  2. 大多数使用中的变换,尤其是对于正测量变量或计数变量,都属于一个家族,不仅包括幂,还包括对数。这个想法在早些时候也得到了广泛的强调,特别是 Tukey (1957),他的论文很奇怪地没有被 Box 和 Cox 引用,但是 Box 和 Cox 的公式,以及 Tukey 后来的工作,似乎在普及这个想法方面更成功的一个家庭。如前所述,强调来自家庭的选择使转型选择的想法更加系统化,而不是临时性的. 请注意,Box-Cox 是指示性的,而不是命令性的决定应该是什么。在他们自己的工作示例中,他们选择对数和倒数变换,从而使他们的估计程序给出的幂四舍五入。事实上,这两个例子都是经验丰富的分析师在他们的论文之前会选择相同的转换。

Box, GEP 和 Cox, DR 1964。转换分析。皇家统计学会杂志 B 系列26:211-252。

Tukey, JW 1957。关于转换的比较解剖。数理统计年鉴28, 602-632。doi:10.1214/aoms/1177706875。http://projecteuclid.org/euclid.aoms/1177706875