在我看来,“控制”许多自变量的观察性研究存在两个基本问题。1)你有缺少解释变量的问题,因此模型错误。2)您有多个相关自变量的问题——在(精心设计的)实验中不存在的问题——以及回归系数和协变量的 ANCOVA 检验基于部分的事实,这使得它们难以解释。第一个是观察性研究的本质所固有的,并在科学背景和竞争性阐述过程中得到解决。后者是一个教育问题,依赖于对回归和 ANCOVA 模型的清晰理解以及这些系数所代表的确切含义。
关于第一个问题,很容易证明,如果对某个因变量的所有影响都是已知的并包含在模型中,则统计控制方法是有效的,并且可以对单个变量的影响产生良好的预测和估计。“软科学”中的问题是,所有相关影响都很少被包括在内,甚至不为人所知,因此模型指定不明确且难以解释。然而,在这些领域中存在许多有价值的问题。答案只是缺乏确定性。科学过程的美妙之处在于它是自我纠正的,模型被质疑、阐述和提炼。另一种选择是建议当我们无法设计实验时,我们无法科学地研究这些问题。
第二个问题是 ANCOVA 和回归模型性质的技术问题。分析师需要清楚这些系数和测试代表什么。自变量之间的相关性影响回归系数和 ANCOVA 检验。它们是对部分的测试。这些模型取出给定自变量的方差和与模型中所有其他变量相关的因变量,然后检查这些残差中的关系。因此,在对所包含的整个变量集及其相互关系有清晰概念理解的背景下,很难解释单个系数和检验。然而,这对预测没有任何问题——只是在解释特定的测试和系数时要小心。
附注: 后一个问题与本论坛之前讨论的一个问题有关,即当将其他预测变量引入模型时,回归符号的反转(例如,从负到正)。在存在相关预测变量且没有清楚了解整个预测变量集之间的多重复杂关系的情况下,没有理由期望(本质上是部分的)回归系数具有特定符号。当有强有力的理论并且对这些相互关系有清晰的理解时,这种符号“反转”可能是有启发性的并且在理论上是有用的。虽然,鉴于许多社会科学问题的复杂性,充分理解并不普遍,但我希望如此。
免责声明: 我是一名受过培训的社会学家和公共政策分析师。