我已经在教科书中确定了 GLM 用 5 种分布(即 Gamma、Gaussian、Binomial、Inverse Gaussian 和 Poisson)描述的多个地方。这也体现在 R 中的家庭函数中。
偶尔我会遇到对 GLM 的引用,其中包含其他发行版(示例)。有人可以解释为什么这 5 个是特殊的,或者总是在 GLM 中,但有时其他的是?
根据我目前所了解的,指数族中的 GLM 分布都符合以下形式: 其中,是色散参数,是典型参数。
不能转换任何分布以适应 GLM 吗?
我已经在教科书中确定了 GLM 用 5 种分布(即 Gamma、Gaussian、Binomial、Inverse Gaussian 和 Poisson)描述的多个地方。这也体现在 R 中的家庭函数中。
偶尔我会遇到对 GLM 的引用,其中包含其他发行版(示例)。有人可以解释为什么这 5 个是特殊的,或者总是在 GLM 中,但有时其他的是?
根据我目前所了解的,指数族中的 GLM 分布都符合以下形式: 其中,是色散参数,是典型参数。
不能转换任何分布以适应 GLM 吗?
正如您所指出的,在 GLM 中使用分布的条件是它属于指数族(注意:这与指数分布不同!虽然指数分布作为伽马分布本身就是指数族)。您列出的五个发行版都属于这个家族,更重要的是,它们是非常常见的发行版,因此它们被用作示例和解释。
正如詹雄所指出的,均匀分布(具有未知边界)是非指数族分布的典型例子。shf8888 将任何间隔上的一般均匀分布与 Uniform(0, 1) 混淆。Uniform(0,1) 分布是 beta 分布的一个特例,它是一个指数族。其他非指数族分布是混合模型和 t 分布。
您对指数族的定义是正确的,并且规范参数对于使用 GLM 非常重要。尽管如此,我总是发现通过将指数族写成这样更容易理解指数族:
有一种更通用的写法,用向量而不是标量;但一维案例说明了很多。具体来说,您必须能够将密度的非指数部分分解为两个函数,一个是未知参数但未观察到的数据,另一个是而不是;取幂部分也是如此。可能很难看出如何以这种方式编写例如二项分布;但是通过一些代数杂耍,最终会变得很清楚。
我们使用指数族是因为它使很多事情变得更容易:例如,找到足够的统计数据和检验假设。在 GLM 中,规范参数通常用于查找链接函数。最后,为什么统计学家在几乎所有情况下都喜欢使用指数族的一个相关说明是试图对一个均匀(,)分布进行任何经典的统计推断,其中和都是未知的. 这并非不可能,但它比对指数族分布做同样的事情要复杂和复杂得多。