为什么要研究线性回归?

机器算法验证 回归
2022-03-24 02:39:38

给定两个随机变量ξη我们可以计算它们的“相关系数”c,并形成这两个随机变量之间的最佳拟合线。我的问题是为什么?

1)有随机变量,ξη以最坏的方式依赖,即ξ=f(η)尽管如此c=0. 如果一个人只考虑线性回归,那么一个人将对此完全视而不见。

2)为什么是线性的?随机变量之间可能存在其他类型的关系。为什么要从所有其他人中挑出那个人?

4个回答

我同意并非所有关系本身都是线性的,但相当多的关系可以线性逼近。我们已经在数学中看到了很多这样的案例,例如泰勒级数或傅里叶级数等。这里的关键是,geomatt22 在评论中说,您通常可以变换非线性数据并应用某种带有基函数的变换并将关系。大学只处理“多元线性回归模型”(包括简单回归模型)的原因是因为它们是更高级的线性模型的构建块。

从数学上讲,只要你能证明某个线性逼近在希尔伯特空间中是稠密的,那么你就可以用这个逼近来表示空间中的一个函数。

您所指的模型,简单线性回归,又名“最佳拟合线”(我在这里混淆了模型和估计方法),诚然非常简单(顾名思义)。为什么要研究它?我可以看到很多原因。在下文中,我假设至少已经非正式地引入了随机变量的概念,因为您在问题中提到了它。

  1. 教学法:当然,对你来说,很明显具有有限二阶矩的实值随机变量形成希尔伯特空间。也许当你第一次学习概率论时就已经很明显了。但是统计学不仅仅教给数学学生:还有更广泛的公众,从物理学到经济学,再到计算机科学,再到社会科学等等。这些学生可能在学习的早期就接触到统计学。他们可能接触过线性代数,也可能没有接触过,即使在第一种情况下,他们也可能没有从数学课程的更抽象的角度看到它。对于这些学生来说,用另一个随机变量来近似一个随机变量的概念并不是那么直接。即使是简单线性模型的基本性质,即误差和预测变量是正交随机变量这一事实,有时让他们感到惊讶。您可以在随机变量(“讨厌的”对象!从概率空间到可测量空间的可测量函数)之间定义“角度”这一事实对您来说可能很明显,但对于新生来说不一定。因此,如果向量空间的研究从良好的欧几里得平面开始,那么从最简单的统计模型开始研究统计模型是否有意义?
  2. 程序:通过简单的线性回归,您可以引入参数估计的概念,从而在最简单的情况下引入最小二乘法、标准误差等。如果您认为这是微不足道的,请记住,许多在工作/研究中使用统计但不是统计学家的专业人士对频率论置信区间深感困惑!无论如何,一旦涵盖了最简单的情况,您就可以进行多元线性回归。一旦掌握了这一点,那么所有线性模型都可用于估计。换句话说,如果我能拟合模型ξ=β0+i=1Nβiηi+ϵ(通过 OLS 或 LARS,以防需要正则化等),然后我可以拟合所有此类模型ξ=i=0Nβiϕ(ηi)+ϵ. 这是一类非常强大的模型,正如@DaeyoungLim 所指出的,如果您有无限的基函数集,并且如果它们生成在希尔伯特空间中密集的向量子空间,它可以逼近希尔伯特空间中的所有函数.
  3. 实用:简单线性回归有许多成功的应用。经济学中的奥肯定律,物理学中的胡克定律欧姆定律查尔斯定律,医学中的血压与年龄的关系(我不知道有没有名字!)都是简单线性回归的例子,不同程度的准确性。

另一个原因是回归的可爱方式对 ANOVA 等技术进行了统一处理对我来说,方差分析的通常“基本”处理似乎很模糊,但基于回归的处理却非常清晰。我怀疑这与回归模型明确一些假设的方式有很大关系,即在“基本”治疗中是默认的和未经检查的。此外,当需要在统计软件中实施方法时,这种统一的观点所提供的概念清晰性伴随着类似的实际好处。

这个原则不仅适用于方差分析,而且适用于限制三次样条等扩展——这特别解决了你的第二个问题。

线性回归的流行部分归功于它的可解释性——也就是说,非技术人员只需一点解释就可以理解参数系数。这在商业环境中增加了很多价值,输出或预测的最终用户可能对数学/统计没有深入的了解。

是的,这种技术存在假设和限制(与所有方法一样),并且在许多情况下它可能无法提供最佳拟合。但是线性回归非常稳健,即使违反假设也通常可以很好地执行。

由于这些原因,它绝对值得研究。