混杂测试

机器算法验证 混杂
2022-04-12 14:57:27

假设我们要测试是否Z是影响的混杂变量XY. 仅检查未调整和调整后的系数估计值是否足够?X看看它们是否不同?此外,如果两者之间的差异非常小(例如1/1000) 我们可以说没有混淆吗?在生存分析中,检查与Z对比XZ对比Y.

2个回答

首先,即使在生存分析中,检查 Z 与 X 或 Y 的关联也不是很复杂。倾向评分和治疗权重的逆概率(两种在生存环境中调整混杂的常用方法)以及其他一些更深奥的方法都是基于估计协变量与暴露或结果之间的关系。

您可以比较调整和未调整的分数来评估是否存在混杂,但前提是您有理由相信首先存在混杂。仅对调整后的估计值和未调整的估计值进行原始比较,就存在通过调整暴露和结果影响的变量而实际引起混淆的风险。查看有关协变量选择的有向无环图的文献,并阅读有关“对撞机”的有关此现象的解释。

但是,一旦由于任何原因(主题专业知识、DAG 的使用、确定变量符合混杂因素的标准)认为某事物是混杂因素,人们就可以使用您的建议 - 这通常称为change-in-estimate 方法 - 根据估计的变化量来检查它是否是一个“问题”。什么是问题的阈值各不相同,但在流行病学中,通常是估计值的 10% 的变化,这被用来表示某些东西足以混淆暴露与疾病的关系,值得调整。

不幸的是,没有测试混淆如果您认为 Z 是一个混杂因素,请进行调整。

仅查看变化(大小为 10% 或其他)是不够的,因为即使 Z 不是混杂因素,当使用不可折叠的效果度量(如优势比)时,调整后分析中估计的参数与那个不同在未经调整的分析中估计。