机器算法验证 - NB GLMM 的偏移量是否总是必须在对数范围内？ - 吾爱随笔录

NB GLMM 的偏移量是否总是必须在对数范围内？

机器算法验证广义线性模型 lme4-nlme 咕噜咕噜抵消

2022-04-06 00:43:11

我正在使用带有 R 包 lme4 的负二项式 GLMM 来检测母亲在出生前后喂食的时间差异（inf_cat）。

    inf30.feed <- glmer.nb(feeding ~ (inf_cat) + 
                    offset(total_inf_cat) + (1|female), 
                    data=mother_ownno_inf30)

我的模型抵消了观察个体所花费的总时间。我对 R 中的 GLMM 还比较陌生，我一直在网上查看很多示例，其中许多示例具有对数刻度的偏移量。

偏移量是否总是必须在对数刻度上？为什么？什么时候做合适？

2个回答

通常，当我们对某种比率数据（例如每 100,000 人的死亡人数、每 100,000 人的车祸等）进行建模时，会使用偏移量。

这自然地建模为某种比率，因此数据形式为 $E(y_i)/n_i$

在 GLM 中，我们通过某种链接函数对期望进行建模，所以

g^{- 1} (E (y_{i}) / n_{i}) = x^{T} β

$g^{-1}(E(y_i)/n_i) = \mathbf{x}^T\beta$

使用对数链接函数，我们有

\log (E (y_{i})) = x^{T} β + \log (n_{i})

$\log(E(y_i)) = \mathbf{x}^T\beta + \log(n_i)$

从日志规则的应用。因此，要回答您的问题，偏移量并不总是日志。这取决于您使用的链接功能。

这个问题与为您的广义线性模型选择链接函数有关。McCullagh 和 Nelder说（第 31 页）：

链接函数与线性预测器相关 $\eta$ 到期望值 $\mu$ 一个基准的[结果值] $y$ .

链接函数使其成为广义线性模型。隐藏在您的调用中glmer.nb()的是日志链接功能的默认选择。也就是说，您正在（可能不知道）使用线性预测器对期望值的对数进行建模。等效地，通过对线性预测变量求幂来找到feeding的期望值。feeding

以您编写模型的方式，线性预测器的固定效应部分*将是： $\beta_0$ + $\beta_1$ inf_cat+ total_inf_cat. 这里， $\beta_0$ 是截距， $\beta_1$ 是的回归系数inf_cat，偏移量将的系数限制为total_inf_cat1。因此，按照您编写模型的方式，每增加 1 个单位total_inf_cat就会给您 $e$ feeding-倍增。

就您对主题的理解而言，这是否有意义？可能不是，如果您认为这total_inf_cat是总可用持续时间并且数量feeding应该与成正比total_inf_cat，其他条件相同。那么日志链接应该伴随一个偏移量log(total_inf_cat), 以保持直接的比例关系。

负二项式模型还有其他链接函数选择，平方根和恒等链接也可用于glmer.nb(). 正如 Demetri Pananos 在另一个答案中所说，如果您确实选择了不同的链接函数，则必须选择不同的偏移量以保持和之间的feeding比例total_inf_cat。例如，total_inf_cat如果您在调用glmer.nb(). 此页面及其链接讨论了这些选择。对于计数数据，日志链接通常最有意义。

最后，负二项式模型最适用于方差大于泊松模型预期的计数数据，其中方差必然等于均值。如果feeding是一个连续变量（喂食所花费的时间），那么使用不同类型的模型可能会更好。但是对于任何类型的广义线性模型，选择偏移量以提供与链接函数相结合的所需行为的相同原则仍然成立。

*我假设它female代表一组母亲的 ID。然后(1|female)模型的随机效应部分允许不同的个体有不同的截距值。

其它你可能感兴趣的问题

上一篇机器学习中存在哪些优化方法？下一篇分类只是机器学习问题吗？