在过去的几周里,我一直在考虑回归和解决方案(如何避免这个问题)的背景下的 OVB(省略变量偏差)。我熟悉 Shalizi 的讲座(2.2),但他只是在数学上描述这一点。
本周有人说这很容易——OVB 的解决方案是包括所有控制混杂协变量影响的预测变量,而不是所有因变量 Y 的预测变量。
我不确定这是否属实,是的,我确实觉得我缺乏更深入的知识。
在过去的几周里,我一直在考虑回归和解决方案(如何避免这个问题)的背景下的 OVB(省略变量偏差)。我熟悉 Shalizi 的讲座(2.2),但他只是在数学上描述这一点。
本周有人说这很容易——OVB 的解决方案是包括所有控制混杂协变量影响的预测变量,而不是所有因变量 Y 的预测变量。
我不确定这是否属实,是的,我确实觉得我缺乏更深入的知识。
OVB 的解决方案是包括所有控制混杂协变量影响的预测变量,而不是因变量 Y 的所有预测变量。
是的,如果您对此更准确,这是正确的。出于识别目的,您应该包括控制混杂效应的变量,并避免那些打开混杂路径或调解您试图测量的效应的变量(如果您对总效应感兴趣)——也就是说,您应该包括那些满足后门准则的变量。你不应该不加选择地包括所有的预测变量,如果预测器是指任何“预测”的东西--- 这可能会影响您的估计。您可以在此“好与坏控制速成课程”中找到对该主题的温和、基于示例的介绍。
同样,值得注意的是,克里斯托夫的回答并不完全正确:
如果一个遗漏变量既 (a) 与结果 Y 相关,并且 (b) 与预测变量 X 相关,则该变量会导致偏差,该预测变量对 Y 的影响是您主要感兴趣的
这不是真的。相关标准对于定义什么是混杂因素不是必需的,也不是充分的。这是对混杂因素定义的常见误解,如其他答案所示。
当然,包括哪些变量来保证识别仅涉及获得对感兴趣的因果数量的一致估计的问题。您还有许多其他问题需要解决,例如您的估计效率(因此您可能会选择/避免减少/增加方差的变量),由于函数形式的错误指定而导致的偏差等。
这不一定是错误的,但并不总是可行的,也不是免费的午餐。
一个遗漏的变量可能会导致(例如,关于这个问题的更多想法,参见下面的评论)偏见,如果它(a)都与结果相关(b) 与预测变量相关谁的影响你主要感兴趣。
考虑一个例子:你想了解额外的学校教育对以后收入的因果影响。另一个最肯定满足条件 (a) 和 (b) 的变量是“动机”——更有动机的人在工作中会更成功(无论他们是否受过高等教育)并且通常会选择接受更多的教育,因为他们可能喜欢学习,并且不会觉得为考试而学习太痛苦。
因此,在不控制动机的情况下比较受过高等教育和受教育程度较低的员工的收入时,您可能至少部分不会比较仅在受教育程度(您感兴趣的影响)和他们的影响方面不同的两组因此,观察到的收入差异不应仅归因于学校教育的差异。
现在,通过将动机包含在回归中来控制动机确实是一种解决方案。可能的问题当然是:你会有关于动机的数据吗?即使您要自己进行调查(而不是使用行政数据,那很可能没有动机条目),您甚至会如何衡量它?
至于为什么包含所有内容不是免费的午餐:如果您有一个小样本,当您的目标是预测时,包含所有可用的协变量可能会很快导致过度拟合。例如,参见这个非常好的讨论。
从理论上讲,包括所有相关的预测变量可以消除遗漏的变量偏差。但是,在回归中包含所有相关的解释变量可能并不总是可行的(由于不了解相关变量或缺乏数据)。
关于缺乏关于遗漏变量偏差的知识。关于 OVB 有几个很好的讲座。环顾四周,关于遗漏变量偏差的最全面的讲座之一可能是这个:
https://economictheoryblog.com/2018/05/04/omimitted-variable-bias
它还包括一个讨论针对遗漏变量偏差的可能策略的部分。
Carlos 的回答很好,因为它解决了回归建模实践中的一个主要缺陷。OVB 一词非常不精确。除了在非典型数学结构下,调整其他变量将改变对主要回归变量估计的效果。仅此一点并不意味着所有这些变量都应包含在模型中。
“后门标准”专门针对混淆偏见。专家观众通常不会接受/相信模型的结果,这些模型在调整中省略了混淆变量。这是有充分理由的。遗漏的混杂因素导致在大型验证性研究中的推论完全错误,并进一步导致成本高昂且具有破坏性的政策、药物适应症或媒体报道。这里首选的术语是混淆偏差,而不仅仅是 OVB。这适用于所有类型的模型,包括最流行的线性回归。
第二个最流行的(也许)模型是逻辑回归。还有另一种类型的“偏差”(可能)来自与混杂无关的逻辑模型。您可以通过调整与主回归量不相关的变量来更改主效应。这是因为优势比的不可折叠性。当主要暴露在结果的基线风险下具有不均匀的协变量分布时,就会出现这种情况。估计主要回归器中每单位差异的“平均”风险累积的 sigmoid 的斜率被减弱。当推断的目标是个体水平的风险,而不是人口平均时,就会出现这种类型的偏差。
一般来说,对建模者的建议是调整预后变量,或尽管与主要回归变量无关但对结果有因果预测作用的变量。例子可能是关于肺癌和吸烟的研究,环境污染的参与者群体。假设目前没有证据表明区域差异满足后门标准以混淆吸烟与癌症的关系。然而,这种环境暴露的风险差异基本上可以预测肺癌的风险。调整环境暴露更精细地分层这些参与者,以便吸烟和不吸烟之间的明显差异以及癌症风险是显而易见的。
在这里可以找到对差异的非常好的描述:https ://www.ncbi.nlm.nih.gov/pmc/articles/PMC3147074/pdf/dyr041.pdf