关于连续预测变量的共线性有很多,但我在分类预测变量上找不到那么多。我有这种类型的数据,如下所示。
第一个因素是遗传变量(等位基因计数),第二个因素是疾病类别。显然,基因先于疾病,并且是显示导致诊断的症状的一个因素。然而,使用类型 II 或 III 平方和的常规分析,如在 SPSS 中通常使用的那样,会错过效果。当输入适当的顺序时,I 类平方和分析会选择它,因为它依赖于顺序。此外,疾病过程中可能存在与 II 型或 III 型未很好鉴定的基因无关的额外成分,参见下面的 anova (lm1)与 lm2 或 Anova。
示例数据:
set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)
library(car)
chisq.test(table(iv1, iv2)) # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1); lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1); anova(lm2)
Anova(lm1, type="II"); Anova(lm2, type="II")
- 对我来说,具有 I 型 SS 的lm1似乎是在给定背景理论的情况下分析数据的合适方法。我的假设正确吗?
- 我习惯于显式操作正交设计,这些问题通常不会出现。在以 SPSS 为中心的领域的背景下,是否难以说服审阅者这是最好的过程(假设第 1 点是正确的)?
- 在统计部分报告什么?任何额外的分析,或应该进入的评论?