这些数据可以汇总成二项式 glm 的比例吗?

机器算法验证 r 广义线性模型
2022-03-13 04:42:03

我们要求 60 人尽可能多地列出亚特兰大的特许经营餐厅。整个列表包括 70 多家餐厅,但我们排除了那些被不到 10% 的人提及的餐厅,剩下 45 家。对于这 45 家,我们计算了列出特许经营权的线人的比例,我们感兴趣的是将此比例建模为特许经营权(对数转换)广告预算和成为特许经营权以来的年数的函数。

所以我写了这段代码:

model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)

正如预测的那样,这两个变量都表现出强烈的显着影响。

但即使我知道永远不应该使用 OLS 回归对比例数据进行建模,我随后还是编写了以下代码:

model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)

在这种情况下,“预算”仍然是一个重要的预测指标,但“年”相对较弱且不显着。

这让我担心对估计的信心被聚合人为夸大了。二项式 glm 本质上不是对数据进行矢量化,以使模型基于 45 * 55 = 2,475 行吗?考虑到真的只有 45 家餐厅和 55 名线人,这是否合适?这需要混合效果建模吗?

1个回答

对于比例数据,可以在拟合之前取因变量的对数,因为对数将乘法转换为加法。类似地,如果还取自变量的对数,如果它们也是成比例的,那么多元线性回归的拟合结果意味着一个幂函数乘积模型,而不是一个加法模型,即Y=cX1k1X2k2...Xnkn. 也就是说,一个适合ln(Y)=ln(c)+k1ln(X1)+k2ln(X2)...+knln(Xn). 对于比例变量,这通常比线性拟合给出更高的显着性,并且更强大,并且具有更高的R2.

现在,如果未改变的回归线(理想情况下是双变量回归,例如戴明回归)没有合理地通过 {0,0},那么它会变得有点复杂,并且最小化偏移比例损失函数而不是使用普通的最小正方形。