我很好奇为什么我们将拟合 GLMS 视为一些特殊的优化问题。他们是吗?在我看来,它们只是最大可能性,我们写下可能性,然后......我们最大化它!那么为什么我们使用 Fisher 评分而不是应用数学文献中开发的无数优化方案呢?
为什么我们在拟合 GLM 时对使用 Fisher 评分大惊小怪?
机器算法验证
广义线性模型
优化
历史
费希尔评分
2022-01-23 23:31:06
2个回答
Fisher 的评分只是牛顿方法的一个版本,恰好与 GLM 相同,没有什么特别的,除了对于指数族中的随机变量,Fisher 的信息矩阵很容易找到。它还与许多其他几乎同时出现的数学统计材料相关联,并为Fisher信息的确切含义提供了很好的几何直觉。
如果您愿意,我绝对没有理由不使用其他优化器,除了您可能必须手动编写代码而不是使用预先存在的包。我怀疑对费舍尔评分的任何强调都是(按权重递减的顺序)教学法、推导容易性、历史偏见和“此处未发明”综合症的组合。
这是历史性的、务实的;Nelder 和 Wedderburn 逆向工程 GLM,作为一组模型,您可以在其中使用 Fisher 评分(即迭代重新加权最小二乘法)找到 MLE。该算法出现在模型之前,至少在一般情况下是这样。
还值得记住的是,IWLS 是他们在 70 年代初期可用的,因此 GLM 是需要了解的重要模型类别。您可以使用牛顿型算法(它们通常具有独特的 MLE)可靠地最大化 GLM 似然性这一事实也意味着像 GLIM 这样的程序可以被那些没有数值优化技能的人使用。