机器算法验证 - 如何在设计的实验中选择 ANOVA 和 ANCOVA？ - 吾爱随笔录

如何在设计的实验中选择 ANOVA 和 ANCOVA？

机器算法验证方差分析多重回归连续数据安乔娃

2022-01-24 19:35:14

我正在进行一个实验，它有以下内容：

DV：切片消耗（连续的或可能是分类的）
IV：健康信息、不健康信息、无信息（对照）（随机分配人员的 3 组 - 分类）这是关于切片健康状况的经过处理的信息。

以下 IV 可以被视为个体差异变量：

冲动性（这可以是分类的，即高与低或连续，并通过尺度来衡量）
甜味偏好（这也可以通过问卷来衡量，每个问题有 3 个选项可供选择）
BMI - 参与者将被相应地称重（这也可以被认为是分类的或连续的）。

由于这些组将被随机分配到 3 个组之一，我假设我正在做某种 ANOVA，并且可能会使用阶乘 ANOVA，因为我对哪些 IV 对 DV 影响最大以及 IV 之间的相互作用感兴趣，因为研究表明某些组合之间存在关系。

但我并不完全确定这一点，因为需要知道最好让IV的所有类别或连续或混合。

或者 ANCOVA 是一种可能性，甚至是回归，但我不确定这一点，因为它们被分配到组中，然后根据他们对调查的回答进行分类。

我希望这是有道理的，并期待听到有人关于我的查询。

1个回答

作为历史事实，回归和方差分析是分开发展的，部分由于传统，仍然经常分开教授。此外，人们通常认为 ANOVA 适用于设计实验（即变量/随机分配的操作），而回归适用于观察性研究（例如，从政府网站下载数据并寻找关系）。然而，所有这些都有些误导。ANOVA是一种回归，只是所有协变量都是分类的。ANCOVA是具有定性和连续协变量的回归，但因子和连续解释变量之间没有交互项（即所谓的“平行斜率假设”）。至于一项研究是实验性的还是观察性的，这与分析本身无关。

你的实验听起来不错。我会将其分析为回归（在我看来，我倾向于将一切称为回归）。如果您对它们感兴趣，和/或如果您正在使用的理论表明它们可能很重要，我会包括所有协变量。如果您认为某些变量的影响可能取决于其他变量，请务必添加所有必要的交互项。要记住的一件事是，每个解释变量（包括交互项！）都会消耗一定程度的自由度，因此请确保您的样本量足够。我不会对您的任何连续变量进行二分法或以其他方式进行分类（不幸的是，这种做法很普遍，这确实是一件坏事）。否则，听起来你正在路上。

更新： 这里似乎有些担心是否将连续变量转换为只有两个（或更多）类别的变量。让我在这里而不是在评论中解决这个问题。我会让你所有的变量保持连续。避免对连续变量进行分类有几个原因：

通过分类，您将丢弃信息——一些观察结果离分界线更远，而另一些则更接近分界线，但它们被视为相同。在科学领域，我们的目标是收集更多更好的信息，并更好地组织和整合这些信息。在我看来，丢弃信息与好的科学完全相反。
正如@Florian 指出的那样，您往往会失去统计能力（感谢您的链接！）；
正如@rolando2 指出的那样，您失去了检测非线性关系的能力；
如果有人阅读您的作品并想知道如果我们在不同的地方画出 b/t 类别线会发生什么？（例如，考虑您的 BMI 示例，如果 10 年后的其他人，根据当时文献中发生的情况，也想了解体重过轻和病态肥胖的人怎么办？）他们只是不走运，但是如果您将所有内容保留为原始形式，则每个读者都可以评估自己喜欢的分类方案；
自然界中很少有“亮线”，因此通过分类无法反映所研究情况的真实情况。如果您担心由于先验的理论原因在某个点上可能存在一条实际的亮线，您可以拟合样条曲线来评估这一点。想象一个变量， $X$ ，从 0 到 1，并且您认为此变量和响应变量之间的关系在 0.7 处突然发生根本性变化，然后您创建一个新变量（称为样条曲线），如下所示： $\begin{aligned} X_{s p l i n e} & = 0 & if X \leq .7 \\ X_{s p l i n e} & = X - .7 & if X > .7 \end{aligned}$ $\begin{aligned} X_{spline} &= 0 &\text{if } X\le{.7} \\ X_{spline} &= X-.7 &\text{if } X>.7 \end{aligned}$ 然后添加这个新的 $X_{spline}$ 除了您的原始模型之外，您的模型还可以修改 $X$ 多变的。模型输出将在 0.7 处出现大幅突破，您可以评估这是否增强了我们对数据的理解。

在我看来，1 和 5 是最重要的。

其它你可能感兴趣的问题

上一篇如果联合分布是多元正态分布，为什么 Pearson 的 ρ 只是一个详尽的关联度量？下一篇有人可以解释确定时间序列相似性的动态时间扭曲吗？