我正在阅读文章我是一名统计学教授。这就是为什么 Nate Silver 的模型在新闻网站(不是学术出版物)上到处都是。
作者(Dale Rosenthal,芝加哥伊利诺伊大学金融学临床助理教授)试图表达对 Nate Silver 总统选举模型的批评。他的第一点与模型制定有关:
538 应该使用广义线性模型对每个州的种族进行建模:或者使用多项式模型来估计克林顿、特朗普、约翰逊、麦克穆林和斯坦因每个州赢得该州的概率,或者使用逻辑链接二项式模型来衡量特朗普与克林顿的关系。这些模型是为这些场景创建的。使用这些需要一点工作:您必须输入支持每个候选人的受访者数量,而不是仅仅坚持报告的百分比。然而,这将具有不相信任何给定民意调查的不确定性声明的额外优势。
虽然 Nate Silver 没有在他的网站上详细说明,但他似乎正在使用线性回归或逻辑回归。由于逻辑回归是更好的选择,我假设他正在使用它。 有些人可能会将逻辑回归和二项式 GLM 与逻辑 [OP 注意:我认为他的意思是 logit] 链接混淆,但它们并不相同。不同之处在于它们如何处理异常事件(即可能的滑坡)的不确定性。这是因为具有成功概率 p 的二项式 [OP 注意:我认为他的意思是伯努利] 随机变量的方差为 p*(1-p)。换句话说:一场几乎平局的比赛对所有输入的敏感度比一场可能是压倒性的比赛要敏感得多。例如,里根在输给蒙代尔时不得不大失所望——而即使是 W 的小失误,也可能将胜利拱手让给戈尔。
具有逻辑链接的二项式 GLM 是针对这种敏感性变化而构建的。逻辑回归不是为了处理这个问题而构建的。因为逻辑回归不处理敏感性的这种变化,它往往会偏向于估计为罕见的事件。由于大多数民意调查和综合民意调查人员估计特朗普获胜的可能性很小,这表明西尔弗的模型形式可能会影响他的结果。
当我调用 GLM 时,我一直认为我在做“逻辑回归”:glm(formula, family=binomial(link = "logit")). 但作者似乎有不同的想法。
一些相关的问题:
听起来作者想说的是,投票计数应该建模为二项式随机变量,而不是状态结果作为伯努利随机变量。这种解释是否正确,或者作者到底想说什么?