“逻辑回归”和“具有逻辑链接的二项式 GLM”之间的区别

机器算法验证 回归 物流 广义线性模型 模型
2022-03-15 07:47:17

我正在阅读文章我是一名统计学教授。这就是为什么 Nate Silver 的模型在新闻网站(不是学术出版物)上到处都是。

作者(Dale Rosenthal,芝加哥伊利诺伊大学金融学临床助理教授)试图表达对 Nate Silver 总统选举模型的批评。他的第一点与模型制定有关:

538 应该使用广义线性模型对每个州的种族进行建模:或者使用多项式模型来估计克林顿、特朗普、约翰逊、麦克穆林和斯坦因每个州赢得该州的概率,或者使用逻辑链接二项式模型来衡量特朗普与克林顿的关系。这些模型是为这些场景创建的。使用这些需要一点工作:您必须输入支持每个候选人的受访者数量,而不是仅仅坚持报告的百分比。然而,这将具有不相信任何给定民意调查的不确定性声明的额外优势。

虽然 Nate Silver 没有在他的网站上详细说明,但他似乎正在使用线性回归或逻辑回归。由于逻辑回归是更好的选择,我假设他正在使用它。 有些人可能会将逻辑回归和二项式 GLM 与逻辑 [OP 注意:我认为他的意思是 logit] 链接混淆,但它们并不相同。不同之处在于它们如何处理异常事件(即可能的滑坡)的不确定性。这是因为具有成功概率 p 的二项式 [OP 注意:我认为他的意思是伯努利] 随机变量的方差为 p*(1-p)。换句话说:一场几乎平局的比赛对所有输入的敏感度比一场可能是压倒性的比赛要敏感得多。例如,里根在输给蒙代尔时不得不大失所望——而即使是 W 的小失误,也可能将胜利拱手让给戈尔。

具有逻辑链接的二项式 GLM 是针对这种敏感性变化而构建的。逻辑回归不是为了处理这个问题而构建的。因为逻辑回归不处理敏感性的这种变化,它往往会偏向于估计为罕见的事件。由于大多数民意调查和综合民意调查人员估计特朗普获胜的可能性很小,这表明西尔弗的模型形式可能会影响他的结果。

当我调用 GLM 时,我一直认为我在做“逻辑回归”:glm(formula, family=binomial(link = "logit")). 但作者似乎有不同的想法。

一些相关的问题:

听起来作者想说的是,投票计数应该建模为二项式随机变量,而不是状态结果作为伯努利随机变量。这种解释是否正确,或者作者到底想说什么?

2个回答

对我来说,这听起来像是伪统计胡言乱语。他可能想到的是beta-binomial 分布,这是一种解释响应中比二项式“应该”发生的更大可变性的方法,但很难说。贝塔二项分布对于只上过几门应用统计学课程的人来说并不熟悉,但对于统计学教授来说不应该是陌生的。

对我来说,他的其余论点听起来像是邓宁-克鲁格效应即某人对某个主题只了解一点点,但不知道问题的广度和深度或潜在的警告和复杂性,因此认为该主题简单明了。预测选举的最佳方法是用州民意调查建立一个简单的逻辑回归模型的想法是非常无知的。

逻辑回归通常作为一种转换后的响应教给本科生:取一个介于 0 和 1 之间的数字,从中得出对数赔率,然后将 OLS 拟合到它。这也是在一些社会科学中对逻辑回归所做的。鉴于 Nate 的本科学位是经济学,如果他被教导这种非 GLM 方法,这并不罕见。