我认为试图将其视为广义线性模型是矫枉过正的。你所拥有的是一个普通的旧回归模型。更具体地说,因为你有一些分类解释变量和一个连续的 EV,但它们之间没有相互作用,这也可以称为经典 ANCOVA。
我会说#3在这里并不是您需要担心的假设。就此而言,您也不需要真正担心#2。相反,我会用两个不同的假设来代替这些:
2'。方差同质性
3'。残差的正态性
此外,#4 是需要检查的重要事项,但我并不认为它本身就是一个假设。让我们考虑如何检查假设。
通常首先通过思考数据代表什么以及如何收集数据来“检查”独立性。此外,可以使用运行 测试、Durbin-Watson 测试或检查自相关模式等方法进行检查——您还可以查看偏自相关。(请注意,这些只能相对于您的连续协变量进行评估。)
主要使用分类解释变量,可以通过计算每个因子水平的方差来检查方差的同质性。计算完这些后,有几个测试用于检查它们是否大致相同,主要是Levene 的测试,还有Brown-Forsyth 的测试。这F米× _测试,也叫哈特利测试,不推荐;如果您想了解更多信息,我会在这里讨论。(请注意,与上面不同,这些测试可以应用于您的分类协变量。)对于连续 EV,我喜欢将残差与连续协变量作图,并目视检查它们是否进一步向一侧或另一侧扩展。
残差的正态性可以通过一些测试来评估,例如Shapiro-Wilk或Kolmogorov-Smirnov 测试,但通常最好通过qq-plot直观地评估。(请注意,此假设通常是该集合中最不重要的;如果不满足,您的 beta 估计仍然是无偏的,但您的 p 值将不准确。)
有几种方法可以评估您的个人观察的影响。可以获得索引此数值的数值,但如果可以的话,我最喜欢的方法是将数据折刀。也就是说,您依次删除每个数据点并重新拟合您的模型。然后,如果该观察结果不是您的数据集的一部分,您可以检查您的 beta 反弹了多少。此度量称为dfbeta。这需要一些编程,但软件通常可以通过标准方式自动为您计算。这些包括杠杆和库克距离。
关于您最初所说的问题,如果您想了解更多关于链接函数和广义线性模型的信息,我在这里进行了相当广泛的讨论。基本上,为了选择合适的链接函数,最重要的考虑因素是响应分布的性质;既然你相信Y是高斯,恒等链接是合适的,你可以使用回归模型的标准思想来考虑这种情况。
关于“解释变量的正确测量尺度”,我认为你是指史蒂文的测量水平(即分类、序数、区间和比率)。首先要意识到的是回归方法(包括 GLiM)不对解释变量做出假设,相反,您在模型中使用解释变量的方式反映了您对它们的信念。此外,我倾向于认为 Steven 的水平被夸大了。有关该主题的更多理论处理,请参见此处。