关于遗漏变量偏差(和其他协变量选择偏差问题)的贝叶斯观点

机器算法验证 贝叶斯 模型选择 特征选择 偏见 常客
2022-03-15 10:33:09

据我所知,OVB 来自常客教育,当您将变量置于与您感兴趣的自变量(治疗)和您感兴趣的因变量()相关的控制集之外时,您的系数估计将有偏差,因为缺失变量的解释能力分布到包含变量的系数 )。(z)(X)TYz(β^iXi

贝叶斯视角如何看待 OVB? 例如,如果我们使用基于数据而不是基于理论的变量选择算法——LR、AIC、BIC——很难想象 OVB 吗?此外,如何将的意识正式整合到我们的条件概率陈述中?我的意思是,在贝叶斯推理中,我们想要估计如果我们承认一些重要但未被观察到的,我们会写吗?zP(modeldata)=P(θX)zP(θX,z)

此外,贝叶斯观点将如何解释其他类别的协变量选择偏差问题?我考虑了 Pearl 和其他人阐述的协变量选择问题,包括:

2个回答

一般来说,贝叶斯估计不太关心估计量的无偏性,因为模型总是被错误指定。肯定存在关于贝叶斯框架中无偏估计条件的证据。我只是认为从业者不太关心这一点,并尽量避免使用容易受到这种事情影响的拟合程序。

有时,为了获得“无偏”估计量而做一些棘手的事情可能会以牺牲其他可利用的问题结构为代价(例如,当使用池化来获得无偏估计量时,您正在交易可用的类别级别差异以换取在难以置信的假设。这是否是一个有用的权衡应该在特定应用推理问题的层面上考虑,而不是作为与任何模型有关的通用事情。这是 Andrew Gelman 的一篇文章。

对于手头的问题,我相信贝叶斯从业者更普遍地关注模型拟合评估和模型错误指定。更多的是关于您是否遗漏了遗漏变量的明显或显着效应大小,而不是关于遗漏是否将效应大小喷洒到其他变量上。

解决此问题的一种方法是对模型执行后验预测检查如果您使用诸如连续模型扩展(本文的第 5.2 节)之类的过程来执行此操作,那么后验预测检查应该为您提供有关最佳模型规范(或者更好的是,在某些模型规范上的最佳分布)的证据,而不是而不是强迫您做出不自然的选择,例如“带有变量 Z 的模型比没有变量 Z 的模型‘更好’”(这几乎总是被读者误解或误解)。

贝叶斯模型总是被错误指定是不正确的!自己尝试...您会意识到,即使先验错误,您也可以找到具有无偏后验估计量的条件。