我想在拟合逻辑回归模型时使用计数数据作为协变量。我的问题是:
- 通过使用计数非负整数变量作为自变量,我是否违反了逻辑(更一般地说,广义线性)模型的任何假设?
我在文献中发现了很多关于热门使用计数数据作为结果的参考资料,但不是作为协变量;例如,参见非常清晰的论文:“NE Breslow (1996) 广义线性模型:检查假设和加强结论,Congresso Nazionale Societa Italiana di Biometria,Cortona,1995 年 6 月”,可在 http://biostat.georgiahealth.edu/~dryu获得/course/stat9110spring12/land16_ref.pdf。
粗略地说,glm 假设似乎可以表示如下:
- 独立同分布残差;
- 链接函数必须正确地表示因变量和自变量之间的关系;
- 没有异常值
每个人都知道是否存在任何其他假设/技术问题可能建议使用其他类型的模型来处理计数协变量?
最后,请注意我的数据包含的样本相对较少(<100),并且计数变量的范围可以在 3-4 个数量级内变化(即某些变量的值在 0-10 范围内,而其他变量的值可能在0-10000)。
一个简单的 R 示例代码如下:
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################