有并发症的模型

机器算法验证 回归
2022-04-12 19:44:59

常规线性回归模型是,其中是未知系数,是具有零均值和恒定方差的高斯噪声。我正在建立一个模型,其中错误项有两个复杂性:y=cx+εcεε

  1. 它的分布不正常。
  2. 误差方差不是恒定的。

我知道第一个问题可以通过一些线性回归模型来解决,而第二个问题可以通过线性回归来解决(例如,Tofallis, C (2008), “Least Squares Percentage Regression”)。但我从未见过能同时解决这两个问题的模型。

2个回答

基于三明治的稳健误差估计渐近地处理异方差和非正态误差分布这也恰好意味着您在相对样本中获得了近似有效的推论。

一种批评可能是,一种如此强大的方法必须是低功率的。一般来说,并不像人们想象的那样真实。但是......你能对错误的分布做出更弱或不同的假设吗?例如,它们可能不是正态分布,而是来自包括正态分布的一般误差族,例如 t 分布族或 3 参数正态族。这模糊了经典推理之间的界限,经典推理在小样本中依赖于强分布假设,而稳健的误差估计在相对较大的样本中几乎是无懈可击的。

为混合方法模糊这些线的一个示例是最大化条件似然性,该条件似然允许像分布这样具有相对较低自由度的 platykurtic 误差分布。对于异方差的情况,您可以检查变异函数以将误差建模为均值的函数,例如使用线性的均值-方差关系(或者考虑具有恒等链接的 Poisson GLM)。t

异方差性和重尾性都可以被认为违反了标准线性模型的分布假设。如果分布仍然是对称的,并且关系是xy是直线的,你的模型不应该有偏差。相反,区间估计和推断是不正确的。有了足够的数据,它们可能还是大致正确的。不幸的是,很难知道有多少数据是“足够的”,而且在您不知不觉中,数据量可能大得令人望而却步。因此,您需要不依赖于标准分布假设的方法。@AdamO 的建议是可行的。我想到了另外两种方法:

  1. 您可以引导您的模型以获得更好的置信区间和 p 值。这里的优点是您的模型在其他方面是相似的(特别是在可解释性方面)。缺点是您需要足够的数据来充分代表总体,这可能需要您编写原始代码(即,可能还没有方便的例程)。
  2. 最终的无分布回归方法是使用序数逻辑回归序数模型不对条件分布做出任何假设,它们只要求您可以声称,例如,7>一个6. 这不是很严格。好处是相当坚固,在您选择的软件中将有方便的功能。缺点是 OLR 模型往往难以解释。