给定两个随机变量和我们可以计算它们的“相关系数”,并形成这两个随机变量之间的最佳拟合线。我的问题是为什么?
1)有随机变量,和以最坏的方式依赖,即尽管如此. 如果一个人只考虑线性回归,那么一个人将对此完全视而不见。
2)为什么是线性的?随机变量之间可能存在其他类型的关系。为什么要从所有其他人中挑出那个人?
给定两个随机变量和我们可以计算它们的“相关系数”,并形成这两个随机变量之间的最佳拟合线。我的问题是为什么?
1)有随机变量,和以最坏的方式依赖,即尽管如此. 如果一个人只考虑线性回归,那么一个人将对此完全视而不见。
2)为什么是线性的?随机变量之间可能存在其他类型的关系。为什么要从所有其他人中挑出那个人?
我同意并非所有关系本身都是线性的,但相当多的关系可以线性逼近。我们已经在数学中看到了很多这样的案例,例如泰勒级数或傅里叶级数等。这里的关键是,geomatt22 在评论中说,您通常可以变换非线性数据并应用某种带有基函数的变换并将关系。大学只处理“多元线性回归模型”(包括简单回归模型)的原因是因为它们是更高级的线性模型的构建块。
从数学上讲,只要你能证明某个线性逼近在希尔伯特空间中是稠密的,那么你就可以用这个逼近来表示空间中的一个函数。
您所指的模型,简单线性回归,又名“最佳拟合线”(我在这里混淆了模型和估计方法),诚然非常简单(顾名思义)。为什么要研究它?我可以看到很多原因。在下文中,我假设至少已经非正式地引入了随机变量的概念,因为您在问题中提到了它。
另一个原因是回归的可爱方式对 ANOVA 等技术进行了统一处理。对我来说,方差分析的通常“基本”处理似乎很模糊,但基于回归的处理却非常清晰。我怀疑这与回归模型明确一些假设的方式有很大关系,即在“基本”治疗中是默认的和未经检查的。此外,当需要在统计软件中实施方法时,这种统一的观点所提供的概念清晰性伴随着类似的实际好处。
这个原则不仅适用于方差分析,而且适用于限制三次样条等扩展——这特别解决了你的第二个问题。
线性回归的流行部分归功于它的可解释性——也就是说,非技术人员只需一点解释就可以理解参数系数。这在商业环境中增加了很多价值,输出或预测的最终用户可能对数学/统计没有深入的了解。
是的,这种技术存在假设和限制(与所有方法一样),并且在许多情况下它可能无法提供最佳拟合。但是线性回归非常稳健,即使违反假设也通常可以很好地执行。
由于这些原因,它绝对值得研究。