线性模型和线性回归的区别

机器算法验证 回归 线性模型 流明
2022-03-20 00:01:25

我对线性回归和线性模型之间的区别感兴趣。在我的理解中,线性回归是一个更大的线性模型家族的一部分,但这两个术语经常被用作同义词。现在,有人向我建议,我可以用线性模型代替回归分析,以绕过执行线性回归时需要满足的假设。如果您对该主题有任何阅读建议,我们非常欢迎。

我希望你帮我弄清楚我在做什么

  • 是线性回归,应该这样对待
  • 可以用“线性模型”代替
  • 我的方法是“线性模型”的同义词

所以,这就是我所做的。分析的目的是在散点图中绘制一条线。直线与 x 轴的斜率和交点都将用于分析数据集。结果变量是化学元素的比率(每次浓度),预测变量是两个浓度的比率(因此没有单位)。我测量了不同环境(深度)中的速率,必须在一个图中进行比较。只有一个深度不符合回归假设。

  1. 我使用 R 中的 lm 函数来计算线性方程。
  2. 我检查了 lm 对象的残差。
  3. 我发现残差既不是正态分布的,也没有相等的方差。
  4. 我认为结果变量(速率)的对数变换可以修复方差,但残差仍然不是正态分布的。
  5. 我决定使用稳健的方法,这样方程就不会受到异常值的影响,我不能从分析中排除(函数 lmrob,包robustbase)。
  6. 由于对数转换,我没有画线。图中还有其他数据不需要对数转换,但应该与导致问题的数据集保持可比性。也不可能用对数尺度扩展另一个地块,因为原始地块是多地块设计的一部分,已经相当广泛。

也许出于我的目的,回归假设不感兴趣?现在,我很困惑该怎么做,所以谢谢你的帮助!

1个回答

解决当前问题的最简单方法是,将模型本身的问题与模型结果的显示问题分开,让大多数数据都很好地拟合简单的线性回归,但来自一个深度的数据除外。对于需要变换变量的一个深度,在绘图之前将回归拟合回变换到原始比例。对于那个深度,您将有一条曲线而不是表征其他深度的直线,但您仍然应该有一个有用的 x 截距,并且该截距附近的曲线斜率将是比较深度之间斜率的开始。

但是,您应该考虑为什么这个特定深度似乎与其他深度具有如此不同的属性。与其他深度相比,它是否是深度值的极端值,可能超出某种类型的边界(关于温度、混合等)?或者可能只是那个特定深度的测量有一些系统误差,在这种情况下你根本不应该考虑它们?这些科学和技术问题比统计方法的细节重要得多。

对于您的问题中提出的更广泛的问题,线性模型的假设在此站点上进行了广泛讨论,例如此处结果相对于预测变量的线性很重要,但其他假设(如误差的正态分布)主要影响解释p值的能力。如果预测变量存在线性关系,回归仍将给出潜在关系的有用估计。广义线性模型提供了一种方法来处理作为预测值函数的误差,正如您似乎对那个令人不安的深度所拥有的那样。

请注意,如果您的实验设计是基于在不同深度测量的化学物质浓度的观察性研究,则已经违反了标准线性回归的假设之一,因为预测变量的值可能存在误差。在这种情况下,您真正​​拥有的是变量错误模型。在实践中,这种区别经常被忽视,但是您的回归模型(以及大多数从事观察而非对照研究的科学家的回归模型)已经违反了严格的线性回归假设。

最后,虽然我很欣赏你已经做了很多数据分析,但考虑一下你是否真的应该使用集中比率作为预测变量。比率是出了名的麻烦,特别是当分母可以接近 0 时。几乎所有可以用比率作为预测变量来完成的事情都可以通过分子和分母变量的对数变换来完成。据我了解您的情况,您有一个结果变量(某些化学品的生产速率)和多个测量的其他化学品浓度;然后,您检查了这些其他化学物质的各种比率作为结果变量的预测因子。如果您改为形成一个组合回归模型,该模型使用所有其他化学物质的对数浓度作为结果的预测因子,您最终可能会得到一个更有用的模型,该模型可能显示化学物质之间的意外相互作用,并且仍然可以用术语来解释如果你愿意的话。