我查看了很多 R 数据集、DASL 和其他地方的帖子,并没有找到很多有趣的数据集的好例子来说明实验数据的协方差分析。统计教科书中有许多带有人为数据的“玩具”数据集。
我想举一个例子:
- 数据真实,故事有趣
- 至少有一个处理因素和两个协变量
- 至少一个协变量受一种或多种治疗因素影响,一个不受治疗影响。
- 实验而不是观察,最好
背景
我真正的目标是为我的 R 包找到一个很好的例子。但更大的目标是人们需要看到好的例子来说明协方差分析中的一些重要问题。考虑以下虚构的场景(请理解,我对农业的了解充其量只是肤浅的)。
- 我们做了一个实验,将肥料随机分配到地块上,然后种植作物。在合适的生长期后,我们收获作物并测量一些质量特征——即响应变量。但我们还记录了生长期间的总降雨量,以及收获时的土壤酸度——当然,还有使用了哪种肥料。因此,我们有两个协变量和一个处理。
分析结果数据的常用方法是拟合线性模型,将处理作为一个因素,并为协变量添加加性效应。然后总结结果,计算“调整均值”(AKA 最小二乘均值),这是模型在平均降雨量和平均土壤酸度下对每种肥料的预测。这使一切都处于平等地位,因为当我们比较这些结果时,我们保持降雨和酸度不变。
但这可能是错误的做法——因为肥料可能会影响土壤酸度以及反应。这使得调整后的方法具有误导性,因为处理效果包括其对酸度的影响。处理这个问题的一种方法是将酸度从模型中剔除,然后降雨调整的方法将提供一个公平的比较。但如果酸度很重要,那么这种公平性就会付出巨大的代价,即残差的增加。
有一些方法可以通过在模型中使用调整后的酸度版本而不是其原始值来解决此问题。即将对我的 R 包lsmeans进行的更新将使这一切变得非常容易。但我想有一个很好的例子来说明它。我将非常感谢并正式承认任何可以向我指出一些很好的说明性数据集的人。