作为历史事实,回归和方差分析是分开发展的,部分由于传统,仍然经常分开教授。此外,人们通常认为 ANOVA 适用于设计实验(即变量/随机分配的操作),而回归适用于观察性研究(例如,从政府网站下载数据并寻找关系)。然而,所有这些都有些误导。ANOVA是一种回归,只是所有协变量都是分类的。ANCOVA是具有定性和连续协变量的回归,但因子和连续解释变量之间没有交互项(即所谓的“平行斜率假设”)。至于一项研究是实验性的还是观察性的,这与分析本身无关。
你的实验听起来不错。我会将其分析为回归(在我看来,我倾向于将一切称为回归)。如果您对它们感兴趣,和/或如果您正在使用的理论表明它们可能很重要,我会包括所有协变量。如果您认为某些变量的影响可能取决于其他变量,请务必添加所有必要的交互项。要记住的一件事是,每个解释变量(包括交互项!)都会消耗一定程度的自由度,因此请确保您的样本量足够。我不会对您的任何连续变量进行二分法或以其他方式进行分类(不幸的是,这种做法很普遍,这确实是一件坏事)。否则,听起来你正在路上。
更新: 这里似乎有些担心是否将连续变量转换为只有两个(或更多)类别的变量。让我在这里而不是在评论中解决这个问题。我会让你所有的变量保持连续。避免对连续变量进行分类有几个原因:
- 通过分类,您将丢弃信息——一些观察结果离分界线更远,而另一些则更接近分界线,但它们被视为相同。在科学领域,我们的目标是收集更多更好的信息,并更好地组织和整合这些信息。在我看来,丢弃信息与好的科学完全相反。
- 正如@Florian 指出的那样,您往往会失去统计能力(感谢您的链接!);
- 正如@rolando2 指出的那样,您失去了检测非线性关系的能力;
- 如果有人阅读您的作品并想知道如果我们在不同的地方画出 b/t 类别线会发生什么?(例如,考虑您的 BMI 示例,如果 10 年后的其他人,根据当时文献中发生的情况,也想了解体重过轻和病态肥胖的人怎么办?)他们只是不走运,但是如果您将所有内容保留为原始形式,则每个读者都可以评估自己喜欢的分类方案;
- 自然界中很少有“亮线”,因此通过分类无法反映所研究情况的真实情况。如果您担心由于先验的理论原因在某个点上可能存在一条实际的亮线,您可以拟合样条曲线来评估这一点。想象一个变量,X,从 0 到 1,并且您认为此变量和响应变量之间的关系在 0.7 处突然发生根本性变化,然后您创建一个新变量(称为样条曲线),如下所示:
XsplineXspline=0=X−.7if X≤.7if X>.7
然后添加这个新的Xspline除了您的原始模型之外,您的模型还可以修改X多变的。模型输出将在 0.7 处出现大幅突破,您可以评估这是否增强了我们对数据的理解。
在我看来,1 和 5 是最重要的。