为什么在 Box-Cox 方法中我们试图使 x 和 y 呈正态分布,但这不是线性回归的假设?

机器算法验证 回归 正态分布 最大似然 数据转换
2022-03-24 01:54:02

Sheather 的书中,它指出

Box-Cox 过程旨在找到使变换后的变量接近正态分布的变换。

具体来说: 此外,当 x 和 y 呈正态分布时,最大似然估计在此处输入图像描述 在此处输入图像描述β0β1与最小二乘估计相同。

但在简单的线性回归中,实际上我们并不认为这一定是正确的。这是为什么?

(由于根据上图,似乎只有当x和y服从正态分布时,X上的Y才会接近线性,这只是线性回归模型)

此外,Box-Cox 方法的目标是使 X 和 Y 更正态分布,但通常当人们使用这种方法进行数据转换时,他们实际上希望使错误(或 std.residuals)正态分布。这两者如何相互关联?

3个回答

实际上,box-cox 变换找到了使方差均质化的变换。恒定方差确实是一个重要的假设!@whuber 的评论:Box-Cox 变换是一种数据变换(通常用于正数据),定义为Y(λ)=yλ1λ(什么时候λ0及其极限logy什么时候λ=0)。这种变换可以有不同的使用方式,Box-Cox方法通常是指变换参数的似然估计λ.λ可能以其他方式选择,但这篇文章(和问题)是关于这种选择的可能性方法λ.

发生的情况是,boxcox 变换最大化了由恒定方差正态模型构建的似然函数。最大化这种可能性的主要贡献来自均化方差!( * ) 你可以从其他一些位置尺度的族中构造一些类似的似然函数(例如,也许从构造t10,比如说)和恒定方差假设,它会给出类似的结果。或者,您可以从稳健回归构造一个类似于 boxcox 的标准函数,同样具有恒定方差。它会给出类似的结果。(最终,我想回到这里用一些代码展示这个)。

( * ) 这并不奇怪。通过绘制一些数字,您可以说服自己改变密度的比例是一个更大的变化,影响密度值(即似然值)不仅仅是稍微改变基本形式,而是保持比例。

我曾经(使用 Xlispstat)构建了一个滑块演示,令人信服地展示了这一点,但您应该做的只是做一些简单的示例,您将自己看到这个结果。

所发生的只是恒定方差假设对似然函数的贡献大大掩盖了基本密度形式的微小变化对似然性的影响f0用于生成位置尺度族。

我假设您在问题中通过“方法”指的是Box-Cox 正态图。确实,OLS 中的正态性假设并不是该方法有用所必需的。例如,无论误差分布如何,它都会产生在某些其他条件下无偏的系数。

话虽如此,但常态假设并非没有用例如,在没有正态性假设的小样本中,除了方差和协方差之外,您不能说太多关于系数的概率分布。使用正态性假设,您可以估计此概率分布。在某些条件下的大样本上,您可以使用中心极限定理在没有正态性假设的情况下做到这一点。正态性假设使最大似然估计 (MLE) 产生与 OLS 相同的系数,并在(再次)小样本中共享估计量的许多属性。

最后,很多人使用 Box-Cox 变换不是为了对数据进行归一化,而是为了稳定方差。有时,较大水平的因变量方差会增加。在这种情况下,Box-Cox 变换有助于使整个样本的方差保持一致。这与OLS 中的同方差性假设有关

抱歉,我的问题有点杂乱无章,但我的问题之一(也是最困惑的部分)是为什么我们希望我们的预测变量和响应变量是对称的或正态分布的。经过两天的思考,我想现在我已经得到了答案。

这是我发现最有用的:https ://stats.stackexchange.com/a/123252/161581

核心思想是:

对数或幂变换,更正态分布的变量 更有可能满足线性回归的假设,特别是线性、同方差和正态分布残差。

至于原因,我问题中的引用图片可以回答线性部分。或者正如@Penguin_Knight 所说,偏斜的自变量会有一些具有非常高杠杆率的数据点,可能会使回归斜率产生偏差。

对于其他人,在上面的链接中,有两张图片(我在下面复制)显示了转换如何帮助使误差的方差更像是一个常数和残差图更好看(即没有可辨别的模式)。 在此处输入图像描述