常规线性回归模型是,其中是未知系数,是具有零均值和恒定方差的高斯噪声。我正在建立一个模型,其中错误项有两个复杂性:
- 它的分布不正常。
- 误差方差不是恒定的。
我知道第一个问题可以通过一些线性回归模型来解决,而第二个问题可以通过线性回归来解决(例如,Tofallis, C (2008), “Least Squares Percentage Regression”)。但我从未见过能同时解决这两个问题的模型。
常规线性回归模型是,其中是未知系数,是具有零均值和恒定方差的高斯噪声。我正在建立一个模型,其中错误项有两个复杂性:
我知道第一个问题可以通过一些线性回归模型来解决,而第二个问题可以通过线性回归来解决(例如,Tofallis, C (2008), “Least Squares Percentage Regression”)。但我从未见过能同时解决这两个问题的模型。
基于三明治的稳健误差估计渐近地处理异方差和非正态误差分布。这也恰好意味着您在相对样本中获得了近似有效的推论。
一种批评可能是,一种如此强大的方法必须是低功率的。一般来说,并不像人们想象的那样真实。但是......你能对错误的分布做出更弱或不同的假设吗?例如,它们可能不是正态分布,而是来自包括正态分布的一般误差族,例如 t 分布族或 3 参数正态族。这模糊了经典推理之间的界限,经典推理在小样本中依赖于强分布假设,而稳健的误差估计在相对较大的样本中几乎是无懈可击的。
为混合方法模糊这些线的一个示例是最大化条件似然性,该条件似然允许像分布这样具有相对较低自由度的 platykurtic 误差分布。对于异方差的情况,您可以检查变异函数以将误差建模为均值的函数,例如使用线性的均值-方差关系(或者考虑具有恒等链接的 Poisson GLM)。
异方差性和重尾性都可以被认为违反了标准线性模型的分布假设。如果分布仍然是对称的,并且关系是和是直线的,你的模型不应该有偏差。相反,区间估计和推断是不正确的。有了足够的数据,它们可能还是大致正确的。不幸的是,很难知道有多少数据是“足够的”,而且在您不知不觉中,数据量可能大得令人望而却步。因此,您需要不依赖于标准分布假设的方法。@AdamO 的建议是可行的。我想到了另外两种方法: