广义线性模型的假设

机器算法验证 回归 广义线性模型 安乔娃 假设 散点图
2022-01-29 09:51:36

我制作了一个广义线性模型,其中包含一个响应变量(连续/正态分布)和 4 个解释变量(其中 3 个是因子,第四个是整数)。我使用了带有恒等链接函数的高斯误差分布。我目前正在检查模型是否满足广义线性模型的假设,即:

  1. Y的独立性
  2. 正确的链接功能
  3. 解释变量的正确测量尺度
  4. 没有有影响的观察

我的问题是:如何检查模型是否满足这些假设?最好的起点似乎是针对每个解释变量绘制响应变量。但是,其中 3 个解释变量是分类变量(具有 1-4 个级别),那么我应该在图中寻找什么?

另外,我是否需要检查解释变量之间的多重共线性和相互作用?如果是,我如何使用分类解释变量来做到这一点?

1个回答

我认为试图将其视为广义线性模型是矫枉过正的。你所拥有的是一个普通的旧回归模型。更具体地说,因为你有一些分类解释变量和一个连续的 EV,但它们之间没有相互作用,这也可以称为经典 ANCOVA。

我会说#3在这里并不是您需要担心的假设。就此而言,您也不需要真正担心#2。相反,我会用两个不同的假设来代替这些:

2'。方差同质性
3'。残差的正态性

此外,#4 是需要检查的重要事项,但我并不认为它本身就是一个假设。让我们考虑如何检查假设。

通常首先通过思考数据代表什么以及如何收集数据来“检查”独立性。此外,可以使用运行 测试Durbin-Watson 测试或检查自相关模式等方法进行检查——您还可以查看自相关(请注意,这些只能相对于您的连续协变量进行评估。)

主要使用分类解释变量,可以通过计算每个因子水平的方差来检查方差的同质性。计算完这些后,有几个测试用于检查它们是否大致相同,主要是Levene 的测试,还有Brown-Forsyth 的测试Fmax测试,也叫哈特利测试,推荐;如果您想了解更多信息,我会在这里讨论。(请注意,与上面不同,这些测试可以应用于您的分类协变量。)对于连续 EV,我喜欢将残差与连续协变量作图,并目视检查它们是否进一步向一侧或另一侧扩展。

残差的正态性可以通过一些测试来评估,例如Shapiro-WilkKolmogorov-Smirnov 测试,但通常最好通过qq-plot直观地评估。(请注意,此假设通常是该集合中不重要的;如果不满足,您的 beta 估计仍然是无偏的,但您的 p 值将不准确。)

有几种方法可以评估您的个人观察的影响可以获得索引此数值的数值,但如果可以的话,我最喜欢的方法是将数据折刀。也就是说,您依次删除每个数据点并重新拟合您的模型。然后,如果该观察结果不是您的数据集的一部分,您可以检查您的 beta 反弹了多少。此度量称为dfbeta这需要一些编程,但软件通常可以通过标准方式自动为您计算。这些包括杠杆库克距离

关于您最初所说的问题,如果您想了解更多关于链接函数和广义线性模型的信息,我在这里进行了相当广泛的讨论。基本上,为了选择合适的链接函数,最重要的考虑因素是响应分布的性质;既然你相信Y是高斯,恒等链接是合适的,你可以使用回归模型的标准思想来考虑这种情况。

关于“解释变量的正确测量尺度”,我认为你是指史蒂文的测量水平(即分类、序数、区间和比率)。首先要意识到的是回归方法(包括 GLiM)不对解释变量做出假设,相反,您在模型中使用解释变量的方式反映了您对它们的信念此外,我倾向于认为 Steven 的水平被夸大了。有关该主题的更多理论处理,请参见此处