最近,我不得不阅读几篇经济学(我不太熟悉的领域)的论文。我注意到的一件事是,即使响应变量是二元的,使用 OLS 拟合的线性回归模型也无处不在。因此,我的问题是:
为什么线性回归比经济学领域的逻辑回归更受青睐?这只是一种常见的做法,还是一种积极倡导的程序(在论文中、教师等)?
请注意,我不是在问为什么使用带有二元响应的线性回归可能是一个坏主意,或者替代方法是什么。相反,我问为什么人们在这种情况下使用线性回归,因为我知道这两个问题的答案。
最近,我不得不阅读几篇经济学(我不太熟悉的领域)的论文。我注意到的一件事是,即使响应变量是二元的,使用 OLS 拟合的线性回归模型也无处不在。因此,我的问题是:
为什么线性回归比经济学领域的逻辑回归更受青睐?这只是一种常见的做法,还是一种积极倡导的程序(在论文中、教师等)?
请注意,我不是在问为什么使用带有二元响应的线性回归可能是一个坏主意,或者替代方法是什么。相反,我问为什么人们在这种情况下使用线性回归,因为我知道这两个问题的答案。
Dave Giles 的计量经济学博客上的这篇博文主要概述了线性概率模型 (LPM) 的缺点。
但是,他确实列出了研究人员选择使用它的原因的简短列表:
我不知道与 logit 或 probit 相比,LPM 是最常用的,但上面的一些原因对我来说是明智的。
在阅读其他文件的论文时,我也有类似的问题。并问了很多与此相关的问题,例如教育数据挖掘社区中的这个问题: 为什么使用概率平方损失而不是逻辑损失?
在这里,我将提出很多个人意见。
我觉得损失函数在许多实际用例中并不重要。一些研究人员可能更了解平方损失并构建它的系统,它仍然可以工作并解决现实世界的问题。研究人员可能永远不知道逻辑损失或铰链损失,并想尝试一下。此外,他们可能对找到最佳数学模型不感兴趣,而是想解决以前没有人试图解决的实际问题。
这是另一个例子:如果你检查我的问题的这个答案,所有这些都是相似的。在分类中选择不同的损失函数来近似0-1损失有什么影响
更多想法:机器学习研究可能会花费大量时间来选择什么模型,以及如何优化模型。这是因为机器学习研究人员可能没有能力收集更多数据/获得更多测量值。机器学习研究人员的工作是提高数学水平,而不是更好地解决特定的现实世界问题。
另一方面,在现实世界中,如果数据更好,它就胜过一切。因此,选择神经网络或随机森林可能并不重要。所有这些模型都类似于一个人想要使用机器学习作为解决现实世界问题的工具。对开发数学或工具不感兴趣的人可能会花更多时间使用特定领域知识来改进系统。
正如我在评论中提到的。如果一个人的数学很马虎,他/她仍然能够构建出一些有用的东西。