我们要求 60 人尽可能多地列出亚特兰大的特许经营餐厅。整个列表包括 70 多家餐厅,但我们排除了那些被不到 10% 的人提及的餐厅,剩下 45 家。对于这 45 家,我们计算了列出特许经营权的线人的比例,我们感兴趣的是将此比例建模为特许经营权(对数转换)广告预算和成为特许经营权以来的年数的函数。
所以我写了这段代码:
model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)
正如预测的那样,这两个变量都表现出强烈的显着影响。
但即使我知道永远不应该使用 OLS 回归对比例数据进行建模,我随后还是编写了以下代码:
model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)
在这种情况下,“预算”仍然是一个重要的预测指标,但“年”相对较弱且不显着。
这让我担心对估计的信心被聚合人为夸大了。二项式 glm 本质上不是对数据进行矢量化,以使模型基于 45 * 55 = 2,475 行吗?考虑到真的只有 45 家餐厅和 55 名线人,这是否合适?这需要混合效果建模吗?