帮助理解广义线性模型的优点

机器算法验证 广义线性模型 链接功能
2022-04-01 00:16:41

在https://www.sagepub.com/sites/default/files/upm-binaries/21121_Chapter_15.pdf的第 4 页上,作者陈述了广义模型的以下强度,我不太明白。

实际上,GLM 范式的优势之一——与线性回归中响应变量的变换相比——是线性化变换的选择部分与响应的分布分开,并且相同的变换不必同时归一化Y 的分布,并使其在 Xs 上线性回归。可以使用的特定链接因家族而异,并且在一定程度上也因 GLM 的一个软件实现而异。例如,对二项式数据使用恒等式、对数、逆、平方反比或平方根链接是不可行的,使用 logit、probit、log-log 或互补 log- 也是不明智的。与非二项式数据的日志链接。

  1. 我理解使回归线性的转换是链接函数。但是它们对 Y 的分布进行归一化的变换是什么意思呢?

  2. 如果转换必须相同,分布会是什么样子?

  3. 这些例子如何证明所陈述的属性是正确的?似乎他们在谈论不建议在给定分布中使用任意链接函数的示例,但他们声称的优势是您可以使用任意函数。

1个回答
  1. 普通最小二乘回归模型假设误差是正态分布的(并且方差恒定)。等效地,您可以说的条件分布是正态的。但是,它们通常不是;例如,它们可能严重偏斜,具有不同的剩余方差,可能出现“异常值”等。处理这些有些常见问题的一种方法是转换例如,取的对数通常是有帮助的,所有这些问题都消失了。在这种情况下,的条件分布变得正常。这就是他们所指的。但是,对于伯努利数据(),YYYYY{0,1}任何变换都不会使条件分布正常——它总是伯努利。链接功能的重点不是使正常。(事实上​​,链接函数甚至没有应用于,它应用于控制条件分布行为的参数。在伯努利的情况下,这就是条件概率。)相反,原因链接功能是使右侧可以对所需的参数进行建模。YYp

    阅读我现有的一些与此相关的答案可能会有所帮助:

  2. 我不知道如何回答这个问题。这似乎是基于一个错误的前提。

  3. 第一组变换是幂变换组的成员。它们是(某些)转变方式YOLS 回归的值。第二组是伯努利数据的可能链接函数。我在书中的引用中没有看到“任意”。确实存在本质上无限的变换来归一化条件分布Y,并且在二项式回归模型中本质上可以用作链接函数的无限变换,但通常这些是不同的无限集,并且也有不能用于每个的无限集。对于纠正偏斜的幂变换,您需要一个单调变换,它将逐渐缩小较大的值(例如,Y) 或逐步扩展它们(例如,Y2); 对于二进制响应的链接函数,您需要一个可以转换的函数(0,1)(,)