我目前正在上线性回归课程,但我无法摆脱这样一种感觉,即我所学的内容与现代统计学或机器学习不再相关。当如今这么多有趣的数据集经常违反线性回归的许多不切实际的假设时,为什么要花这么多时间对简单或多元线性回归进行推理?为什么不使用支持向量机或高斯过程在更灵活、更现代的工具上教授推理?虽然比在空间中寻找超平面更复杂,但这不会为学生提供更好的背景来解决现代问题吗?
线性回归过时了吗?
确实,线性回归的假设是不现实的。然而,这适用于所有统计模型。“所有模型都是错误的,但有些模型是有用的。”
我猜您的印象是,当您可以使用更复杂的模型时,没有理由使用线性回归。这不是真的,因为一般来说,更复杂的模型更容易受到过度拟合的影响,并且它们使用更多的计算资源,这在您尝试在嵌入式处理器或 Web 服务器上进行统计时很重要。更简单的模型也更容易理解和解释;相比之下,神经网络等复杂的机器学习模型往往或多或少地成为黑匣子。
即使有一天线性回归不再实用(在可预见的未来这似乎极不可能),它在理论上仍然很重要,因为更复杂的模型往往以线性回归为基础。例如,为了理解正则化混合效应逻辑回归,您需要先了解普通的旧线性回归。
这并不是说更复杂、更新和更闪亮的模型没有用或不重要。他们中的许多人都是。但更简单的模型适用范围更广,因此更重要,如果您要展示各种模型,那么首先展示显然是有意义的。如今,自称“数据科学家”之类的人进行了很多糟糕的数据分析,但他们甚至不知道基础知识,比如置信区间到底是什么。不要做统计!
线性回归一般不会过时。仍然有人在围绕 LASSO 相关方法进行研究,以及它们与多重测试的关系,例如 - 你可以在谷歌上搜索 Emmanuel Candes 和 Malgorzata Bogdan。
如果您特别询问 OLS 算法,他们为什么教这个的答案是该方法非常简单,以至于它具有封闭形式的解决方案。它也比岭回归或带有套索/弹性网络的版本更简单。您可以在简单线性回归的解决方案上构建您的直觉/证明,然后使用额外的约束来丰富模型。
我不认为回归是旧的,它对于数据科学家目前面临的一些问题可能被认为是微不足道的,但它仍然是统计分析的 ABC。如果你不知道最简单的模型是如何工作的,你应该如何理解 SVM 是否正常工作?使用这样一个简单的工具可以教您如何在进入疯狂的复杂模型之前查看数据,并深入了解哪些工具可以用于进一步分析,哪些工具不能。与我的一位教授和同事进行了这次对话后,她告诉我,她的学生在应用复杂模型方面表现出色,但他们无法理解杠杆是什么,也无法阅读简单的 qq 图来了解数据出了什么问题。通常在最简单易读的模型中代表着美。
简短的回答是否定的。例如,如果您尝试使用 MNIST 数据进行线性模型,您仍将获得约 90% 的准确度!
一个长答案是“取决于领域”,但线性模型被广泛使用。
在某些领域,比如医学研究,获取一个数据点非常昂贵。而且分析工作还是和很多年前差不多:线性回归仍然扮演着非常重要的角色。
在现代机器学习中,比如说文本分类,线性模型仍然非常重要,尽管还有其他更高级的模型。这是因为线性模型非常“稳定”,它不太喜欢过度拟合数据。
最后,线性模型实际上是大多数其他模型的构建块。好好学习,对你以后有好处。