使用计数数据作为自变量是否违反任何 GLM 假设?

机器算法验证 广义线性模型 计数数据
2022-03-17 22:53:47

我想在拟合逻辑回归模型时使用计数数据作为协变量。我的问题是:

  • 通过使用计数非负整数变量作为自变量,我是否违反了逻辑(更一般地说,广义线性)模型的任何假设?

我在文献中发现了很多关于热门使用计数数据作为结果的参考资料,但不是作为协变量;例如,参见非常清晰的论文:“NE Breslow (1996) 广义线性模型:检查假设和加强结论,Congresso Nazionale Societa Italiana di Biometria,Cortona,1995 年 6 月”,可在 http://biostat.georgiahealth.edu/~dryu获得/course/stat9110spring12/land16_ref.pdf

粗略地说,glm 假设似乎可以表示如下:

  • 独立同分布残差;
  • 链接函数必须正确地表示因变量和自变量之间的关系;
  • 没有异常值

每个人都知道是否存在任何其他假设/技术问题可能建议使用其他类型的模型来处理计数协变量?

最后,请注意我的数据包含的样本相对较少(<100),并且计数变量的范围可以在 3-4 个数量级内变化(即某些变量的值在 0-10 范围内,而其他变量的值可能在0-10000)。

一个简单的 R 示例代码如下:

\###########################################################

\#generating simulated data

var1 <- sample(0:10, 100, replace = TRUE);    
var2 <- sample(0:1000, 100, replace = TRUE);    
var3 <- sample(0:100000, 100, replace = TRUE);    
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);

\#fitting the model

model <- glm(outcome ~ ., family=binomial, data = dataset)

\#inspecting the model

print(model)

\###########################################################
2个回答

这里有一些细微差别,它们可能会造成一些混乱。

您声明您了解逻辑回归的假设包括“ iid残差...”。我认为这并不完全正确。我们通常会说通用线性模型(即回归),但在这种情况下,这意味着残差彼此独立,具有相同的分布(通常是正态)具有相同的均值(0)和方差(即,恒定方差:方差的同质性/同方差性)。但是请注意,对于伯努利分布二项分布,方差是均值的函数。因此,方差不可能是恒定的,除非协变量与响应完全无关。那将是一个限制性很强的假设,以至于逻辑回归毫无价值。我注意到,在您引用的 pdf 的摘要中,它列出了以“观察的统计独立性”开头的假设,我们可以称之为i-but-not-id(无意太可爱)。

接下来,正如@kjetilbhalvorsen 在上面的评论中指出的那样,协变量值(即您的自变量)被假定为在广义线性模型中是固定的。也就是说,没有做出特定的分布假设。因此,它们是否是计数无关紧要,它们的范围是从 0 到 10、从 1 到 10000 还是从 -3.1415927 到 -2.718281828。

但是,正如@whuber 指出的那样,需要考虑的一件事是,如果您有少量数据在协变量维度之一上非常极端,那么这些点可能会对您的分析结果产生很大影响。也就是说,你可能仅仅因为这些点而得到一定的结果。考虑这一点的一种方法是通过在包含和不包含这些数据的情况下拟合您的模型来进行一种敏感性分析。您可能认为放弃这些观察、使用某种形式的稳健统计分析或转换这些协变量以最小化这些点可能具有的极端影响会更安全或更合适。 我不会将这些考虑描述为“假设”,但它们肯定是开发适当模型的重要考虑因素。

我肯定会检查的一件事是自变量的分布属性。经常使用计数数据,您会看到一些中度到严重的右偏。在这种情况下,您可能希望转换数据,因为您将失去对数线性关系。但是不,使用逻辑(或其他 GLM)模型很好。