在观察性(即非随机)研究中控制非独立协变量有多大问题?

机器算法验证 非独立的
2022-03-15 19:54:13

Miller 和 Chapman (2001) 认为,在观察性(非随机)研究中控制与自变量和因变量相关的非独立协变量是绝对不合适的——即使这在社会科学中经常进行。这样做有多大问题?处理这个问题的最佳方法是什么?如果您在自己的研究中定期控制观察性研究中的非独立协变量,您如何证明它的合理性?最后,在与同事争论方法论时,这是一场值得选择的斗争吗(即,这真的很重要)吗?

谢谢

乔治亚州米勒和 JP 查普曼 (2001)。对协方差分析的误解。异常心理学杂志,110, 40-48。- http://mres.gmu.edu/pmwiki/uploads/Main/ancova.pdf

4个回答

它与相关程度一样成问题。

具有讽刺意味的是,如果与其中一个变量没有某种预期的相关性,您就不会费心去控制。而且,如果您希望您的自变量影响您的受抚养人,那么它必然与两者相关。但是,如果它们高度相关,也许您不应该控制它,因为它等于控制了实际的自变量或因变量。

在社会科学中,我们经常把这个问题称为“治疗后偏见”。如果您正在考虑某些治疗的效果(您的自变量),包括治疗后出现的变量(在因果意义上),那么您对治疗效果的估计可能会有偏差。如果你包括这些变量,那么在某种意义上,你就是在控制治疗的影响。如果治疗 T 导致结果 Y 和其他变量 A 和 A 导致 Y,那么控制 A 忽略 T 通过 A 对 Y 的影响。这种偏差可以是正面的或负面的。

在社会科学中,这可能特别困难,因为 A 可能会导致 T,而 T 会反馈给 A,而 A 和 T 都会导致 Y。例如,高 GDP 会导致高水平的民主化(我们的处理),从而导致例如,更高的 GDP、更高的 GDP 和更高的民主化都会减少政府腐败。由于 GDP 导致民主化,如果我们不对其进行控制,那么我们就会出现内生性问题或“遗漏变量偏差”。但是,如果我们确实控制了 GDP,就会产生处理后偏差。除了尽可能使用随机试验外,我们几乎无能为力在 Scylla 和 Charybdis 之间驾驭我们的船。加里·金 (Gary King) 将这些问题作为他对哈佛“社会科学中最难解决的问题”倡议的提名在这里

在我看来,“控制”许多自变量的观察性研究存在两个基本问题。1)你有缺少解释变量的问题,因此模型错误。2)您有多个相关自变量的问题——在(精心设计的)实验中不存在的问题——以及回归系数和协变量的 ANCOVA 检验基于部分的事实,这使得它们难以解释。第一个是观察性研究的本质所固有的,并在科学背景和竞争性阐述过程中得到解决。后者是一个教育问题,依赖于对回归和 ANCOVA 模型的清晰理解以及这些系数所代表的确切含义。

关于第一个问题,很容易证明,如果对某个因变量的所有影响都是已知的并包含在模型中,则统计控制方法是有效的,并且可以对单个变量的影响产生良好的预测和估计。“软科学”中的问题是,所有相关影响都很少被包括在内,甚至不为人所知,因此模型指定不明确且难以解释。然而,在这些领域中存在许多有价值的问题。答案只是缺乏确定性。科学过程的美妙之处在于它是自我纠正的,模型被质疑、阐述和提炼。另一种选择是建议当我们无法设计实验时,我们无法科学地研究这些问题。

第二个问题是 ANCOVA 和回归模型性质的技术问题。分析师需要清楚这些系数和测试代表什么。自变量之间的相关性影响回归系数和 ANCOVA 检验。它们是对部分的测试。这些模型取出给定自变量的方差和与模型中所有其他变量相关的因变量,然后检查这些残差中的关系。因此,在对所包含的整个变量集及其相互关系有清晰概念理解的背景下,很难解释单个系数和检验。然而,这对预测没有任何问题——只是在解释特定的测试和系数时要小心。

附注: 后一个问题与本论坛之前讨论的一个问题有关,即当将其他预测变量引入模型时,回归符号的反转(例如,从负到正)。在存在相关预测变量且没有清楚了解整个预测变量集之间的多重复杂关系的情况下,没有理由期望(本质上是部分的)回归系数具有特定符号。当有强有力的理论并且对这些相互关系有清晰的理解时,这种符号“反转”可能是有启发性的并且在理论上是有用的。虽然,鉴于许多社会科学问题的复杂性,充分理解并不普遍,但我希望如此。

免责声明: 我是一名受过培训的社会学家和公共政策分析师。

我阅读了他们论文的第一页,所以我可能误解了他们的观点,但在我看来,他们基本上是在讨论在分析中包含多重共线自变量的问题。他们以年龄和年级为例说明了这个想法,因为他们说:

年龄与学校成绩密切相关,以至于消除与年龄相关的篮球能力差异将消除与年级相关的相当大的(也许几乎所有)篮球能力差异

ANCOVA 是线性回归,其水平表示为虚拟变量,协变量也显示为回归方程中的自变量。因此,除非我误解了他们的观点(这很有可能,因为我没有完全阅读他们的论文),否则他们似乎在说“不包括因协变量”,这相当于声明避免多重共线变量。