什么是准二项分布(在 GLM 的背景下)?

机器算法验证 r 广义线性模型 二项分布 过度分散 准可能性
2022-02-07 08:36:42

我希望有人可以直观地概述准二项式分布是什么以及它的作用。我对以下几点特别感兴趣:

  1. 拟二项式与二项式分布有何不同。

  2. 当响应变量为比例时(示例值包括 0.23、0.11、0.78、0.98),拟二项式模型将在 R 中运行,但二项式模型不会。

  3. 为什么当 TRUE/FALSE 响应变量过度分散时应使用准二项式模型。

2个回答
  1. 二项式分布和准二项式分布之间的差异可以从它们的概率密度函数 (pdf) 中看出,它表征了这些分布。

    二项式pdf:

    P(X=k)=(nk)pk(1p)nk

    准二项式pdf:

    P(X=k)=(nk)p(p+kϕ)k1(1pkϕ)nk

    准二项分布,虽然类似于二项分布,但有一个额外的参数ϕ(限于|ϕ|min{p/n,(1p)/n})试图描述无法单独用二项分布解释的数据中的额外方差。

    (注意准二项分布的平均值是pi=0nn!ϕi(nk)!而不是p本身。)

  2. 我不确定这一点,也许 R 中的 glm 函数在准二项式模式中添加了权重以解决这个问题?

  3. 额外参数的目的是估计数据中的额外方差。每个广义线性模型 (GLM) 都对结果/响应做出分布假设,并根据该分布最大化数据的可能性。这是分析师做出的选择,如果您认为需要考虑数据中的更多方差,那么您可以选择准二项式分布来对 glm 的响应进行建模。测试我们是否需要拟合准二项式模型而不是二项式的一种好方法是拟合准二项式模型,并测试参数是否为 0。ϕϕ

准二项式不一定是特定分布;它描述了广义线性模型中方差和均值之间关系的模型,该模型是乘以二项式方差。ϕ

有一个符合这样一个规范的分布(显而易见的一个 - 缩放二项式),但这不一定是拟合准二项式模型时的目标;如果您要拟合仍然为 0-1 的数据,则无法缩放二项式。

因此,准二项式方差模型,通过参数,可以更好地处理方差比二项式数据更大(或可能更小)的数据,但不一定是实际分布.ϕ

当响应变量为比例时(示例值包括 0.23、0.11、078、0.98),拟二项式模型将在 R 中运行,但二项式模型不会

据我回忆,二项式模型可以在 R 中以比例*运行,但您必须正确设置它。

* 我知道有三种不同的方法可以将二项式数据提供给 R。我很确定这是一个。