带有重尾响应变量的回归

机器算法验证 回归 分布 重尾
2022-04-14 00:32:36

我有一个无界且连续的响应变量,但尾部较重并且违反了一些正态性假设(见下图)。 在此处输入图像描述

在此处输入图像描述

这个变量代表个体动物的选择系数(在单独的分析中估计),我希望测试它们生活的某些方面是否会影响它们选择栖息地的方式(即,生活在道路附近的动物是否选择相对于道路不同于远离道路的动物)。所以我希望在回归模型中使用这个变量作为因变量,混合连续和分类预测变量。具体来说,我希望使用信息论方法来选择预测选择行为(选择系数)的最佳变量,然后在栖息地变量范围内绘制预测系数。因此,我将根据与道路的距离绘制估计系数,以查看选择是否会根据动物与道路的距离而改变。但是,我不确定制定该模型的最佳方法。

如果我要拟合一个简单的线性回归,我会引入什么样的偏差?这种方法能否对大部分值范围(不包括尾部)给出合理的预测?

或者这是否表明数据中存在一些应该以不同方式处理的非线性?

或者是否有可能和/或更好地拟合一个回归模型,其中响应由不同的分布定义,例如逻辑分布?在试图找到如何在 R 中执行此操作的答案时,我只能找到有关逻辑回归的信息,据我所知,它不适应连续因变量(非正态分布)所以不能解决我的问题。

非常感谢任何建议!

2个回答

首先要注意的是,线性回归模型中的估计量对误差分布中的重尾不是特别敏感(只要误差方差是有限的)。将标准线性回归拟合到尾部过重的数据将意味着尾部中的数据点受到过度惩罚,但模型中的系数估计量通常仍然相当合理。这种情况下的主要缺点是值的预测间隔太短,因为它们没有考虑重尾。

如果你想调整你的模型来处理更重的尾巴,你可以使用中的heavyLm函数heavyR. 此函数使用 T 分布作为误差分布拟合线性模型,这允许您使用尾部比正态更重的误差分布。该软件包的唯一缺点是它需要您指定误差分布的自由度参数,而不是仅仅从数据中估计。然而,通过一些创造性的循环,如果你愿意,你甚至可以估计这个参数。无论如何,该模型应该允许您获得线性回归的估计值,其中误差分布的尾部比正态分布更重,因此您相应的残差密度图和残差 QQ 图应该接近规定的误差分布。

这取决于尾巴的重量。例如,对于学生t 残差的 OLS 回归,随着自由度的降低,首先是 SD,然后是平均值本身变得无法计算。以下链接的答案显示了演示此效果的模拟。对于较低的自由度,其他方法变得越来越重要。

例如,因为尾巴看起来柯西或柯西相似。我会考虑是否可以使用像Theil 回归这样的非参数回归,即使它稍微有偏差,或者Passing-Bablok,它是无偏的,但通常没有意识到后者只能在斜率为正的情况下应用. 另外,请注意,与戴明回归一样,这些方法不会在中产生最小误差,而是代表最佳功能一致性,即变量如何“最佳”共变。y

另请参阅分散在 CV 上的稳健回归和其他相关的“稳健回归”问题(带引号,其中大约 360 个)。这种方法可以扩展到多线性情况和可能的非线性模型,但难度更大。