我有一个由二项式比例组成的数据集,假设转换客户的成功率取决于广告、客户年龄和各种其他因素。
对于一些常见的协变量组合,我有很多数据,因此成功的二项式比例具有较低的方差。然而,对于罕见的协变量组合,我的数据很少,因此比例的方差很高。
差异的幅度非常大,例如,对于某些协变量组合,我可能有 100 万次试验,而其他协变量组合只有 50 次。但是,我想在我的模型中包含所有数据并对其进行适当加权以获得最佳模型拟合。
我尝试使用 R 使用广义线性模型进行二项式(逻辑)回归:
lrfit <- glm ( cbind(converted,not_converted) ~ advertisement + age, family = binomial)
这是一个好的开始,因为它会自动根据试验次数对观察结果进行加权。
但是,这还不够好。原因如下:假设您有 100,000 次试验的一些观察结果和 1,000,000 次试验的其他观察结果。如果您按试验次数加权,后一组将获得 10 倍的重量。然而,这似乎是荒谬的,因为这两个观察结果都很容易精确到足以在模型中得到同等对待。显然你想惩罚只有 10 或 100 次试验的组,但随着试验次数的增加,权重应该停止增加。
由于在加权最小二乘法中,误差方差的倒数被用作权重,我的想法是使用计算比例的后验方差(使用杰弗里的先验),然后添加一些常数项(这将确保方差在一定次数的试验中停止增加),然后使用总和的倒数作为权重。
这种方法合理吗?我错过了什么吗?有人可以给我有关此方法的更多信息吗?