受治疗影响的协变量需要良好的数据示例

机器算法验证 数据集 安乔娃 预测器
2022-02-06 12:19:07

我查看了很多 R 数据集、DASL 和其他地方的帖子,并没有找到很多有趣的数据集的好例子来说明实验数据的协方差分析。统计教科书中有许多带有人为数据的“玩具”数据集。

我想举一个例子:

  • 数据真实,故事有趣
  • 至少有一个处理因素和两个协变量
  • 至少一个协变量受一种或多种治疗因素影响,一个不受治疗影响。
  • 实验而不是观察,最好

背景

我真正的目标是为我的 R 包找到一个很好的例子。但更大的目标是人们需要看到好的例子来说明协方差分析中的一些重要问题。考虑以下虚构的场景(请理解,我对农业的了解充其量只是肤浅的)。

  • 我们做了一个实验,将肥料随机分配到地块上,然后种植作物。在合适的生长期后,我们收获作物并测量一些质量特征——即响应变量。但我们还记录了生长期间的总降雨量,以及收获时的土壤酸度——当然,还有使用了哪种肥料。因此,我们有两个协变量和一个处理。

分析结果数据的常用方法是拟合线性模型,将处理作为一个因素,并为协变量添加加性效应。然后总结结果,计算“调整均值”(AKA 最小二乘均值),这是模型在平均降雨量和平均土壤酸度下对每种肥料的预测。这使一切都处于平等地位,因为当我们比较这些结果时,我们保持降雨和酸度不变。

但这可能是错误的做法——因为肥料可能会影响土壤酸度以及反应。这使得调整后的方法具有误导性,因为处理效果包括其对酸度的影响。处理这个问题的一种方法是将酸度从模型中剔除,然后降雨调整的方法将提供一个公平的比较。但如果酸度很重要,那么这种公平性就会付出巨大的代价,即残差的增加。

有一些方法可以通过在模型中使用调整后的酸度版本而不是其原始值来解决此问题。即将对我的 R 包lsmeans进行的更新将使这一切变得非常容易。但我想有一个很好的例子来说明它。我将非常感谢并正式承认任何可以向我指出一些很好的说明性数据集的人。

4个回答

您可能想查看mediationR 包。它确实包括实验数据jobs,如framing治疗变量影响响应变量和协变量(即治疗效果的中介)以及不受治疗影响的协变量。

我查看了中介文献,因为我虽然您准确地描述了一项中介研究:肥料对作物质量的影响是通过其对土壤酸度的影响来介导的。即使mediation包中的数据集不能让您满意,如果您查看中介文献,您可能会找到一个。

我想我会展示如何使用中介包中的一个数据集进行分析。framing中,进行了一项实验,受试者有机会向国会发送有关移民的信息。然而,一些主题(treat=1)首先被展示了一个以负面方式描绘拉丁裔的新闻故事。除了二元反应(他们是否发送消息),我们还测量emp了受试者在接受治疗后的情绪状态。还有各种人口统计变量。

首先,让我们在 R 中加载所需的包,并将标签更改为educ更短的字符串。

> library("lsmeans")
> library("mediation")
> levels(framing$educ) = c("NA","Ref","< HS", "HS", "> HS","Coll +")

现在拟合逻辑回归模型

> framing.glm = glm(cong_mesg ~ age + income + educ + emo + gender * factor(treat),
+                   family = binomial, data = framing)

这是传统调整均值的显示,其中使用协变量age、和 进行预测income,并emo设置为它们的平均值:

> lsmip(framing.glm, treat ~ educ | gender, type = "response")

(常规“调整均值”的交互图,转换为响应量表)

这是一个奇怪的结果,因为显示的治疗效果对女性和男性相反,而且教育的效果并不像人们想象的那样单调。

注意,h然而,emo是治疗后测量。这意味着治疗可能会影响它,即emo是一个中介协变量;因此,在保持emo不变的情况下比较响应变量的预测可能没有意义。相反,让我们看看在哪里emo设置为其给定的预测值treat和人口统计变量的预测。

> lsmip(framing.glm, treat ~ educ | gender, type = "response",
+       cov.reduce = emo ~ treat*gender + age + educ + income)

(考虑中介效应的预测交互图)

这个结果大相径庭,说明emo起到了很强的中介作用。中介包具有估计这些影响强度的功能。)上述预测表明,考虑到情绪反应,接触负面新闻故事的男性受试者比女性或没有看到负面新闻故事的人更有可能发送信息。负面新闻故事。此外, 的效果educ(几乎)是单调的。

再次感谢 @MasatoNakagawa 为我指出了这个有趣的例子,并让我了解了最近关于因果关系的一些研究。

查找基因-环境相互作用 GWAS 研究。他们本质上执行的统计分析就是您所描述的。问题是您的环境对表型(可观察到的特征)是否重要?一种思想流派通常会忽略所有环境信息,并说您的基因构成描述了您的表型。这与生态研究完全相反,生态研究的故事是环境就是一切,他们忽略了基因。由于双方都试图理解同一个问题,因此最近有人试图将两者结合起来。

假设我们正在研究 BMI。我们将遗传矩阵的前几个主成分作为基因的固定效应。我们将教育与受过良好教育的指数 1 和受过良好教育的指数 0 作为固定效应进行拟合。教育指数与该人所在社区的财富之间存在相当强的相关性。因此有人会争辩说,低收入社区更有可能拥有更多的快餐店。快餐是致肥胖的触发器。“在你的基因设置中引发一些促进脂肪积累的东西”,所以它会以某种形式出现在基因构成中。

模拟这样的数据不是问题。抬头

http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml

这使您可以模拟导致症状的 GWAS(将其视为遗传单位)数据。如果没有另行指示,它将生成 1000 个带有症状和 1000 个控件。我使用的这些模拟中的标准是 9990 个 SNP 不会导致症状,而 10 个 SNP 会。阅读有关如何模拟这些的说明。

如果此人肥胖,则输出为 1,如果不是,则输出为 0。基于与肥胖水平的一些合理相关性,模拟教育因素(完成大学教育/未完成大学教育)。

希望这可以帮助!!!

我建议阅读 Freakonomics,找到他们工作所依据的论文,看看你是否能抓住这些数据。他们在非常有趣的数据集上进行了一些非常有趣的工作,并且在某些情况下,尽管数据存在限制,他们还是想出了非常聪明的方法来测试假设。