为什么“X 中的错误”模型没有得到更广泛的使用?

机器算法验证 回归 可能性 方差 推理
2022-03-01 21:32:34

当我们计算回归系数的标准误差时,我们没有考虑设计矩阵中的随机性。例如在 OLS 中,我们计算Xvar(β^)var((XTX)1XTY)=σ2(XTX)1

如果被认为是随机的,那么总方差定律在某种意义上也需要的方差的额外贡献。IEXX

var(β^)=var(E(β^|X))+E(var(β^|X)).

其中,如果 OLS 估计量真正无偏,则第一项消失,因为期望是一个常数。第二项实际上变成:σ2cov(X)1

  1. 的参数模型已知,我们为什么不将替换为实际的协方差估计。例如,如果是随机处理分配,那么二项式方差是否应该是更有效的估计?XXTXXE(X)(1E(X))

  2. 为什么我们不考虑使用灵活的非参数模型来估计 OLS 估计中可能的偏差来源,并在第一个总方差项中适当考虑对设计的敏感性(即Xvar(E(β^|X))

2个回答

您的问题(加上评论中的进一步评论)似乎最感兴趣的是我们有一个随机对照试验,其中研究人员根据一些随机化设计随机分配一个或多个解释变量。在这种情况下,您想知道为什么我们使用将解释变量视为已知常数的模型,而不是将它们视为随机化所施加的抽样分布中的随机变量。(您的问题比这更广泛,但这似乎是评论中主要关注的情况,所以这是我要解决的问题。)

在这种情况下,我们以解释变量为条件的原因是,在 RCT 的回归问题中,我们仍然对给定预测变量的响应变量的条件分布感兴趣。事实上,在 RCT 中,我们感兴趣的是确定解释变量的因果效应X关于响应变量Y,我们将通过对条件分布的推断来确定(遵守一些协议以防止混淆)。施加随机化以打破解释变量之间的依赖关系X以及任何可能的混淆变量(即,防止后门关联)。 但是,问题中的推理对象仍然是给定解释变量的响应变量的条件分布。因此,使用具有良好属性的估计方法来估计条件分布中的参数仍然是有意义

这是使用回归技术申请 RCT 的正常情况。当然,在某些情况下,我们还有其他兴趣,我们可能确实希望将解释变量的不确定性纳入其中。在解释变量中加入不确定性通常发生在两种情况下:

  • (1) 当我们超越回归分析并进入多变量分析时,我们感兴趣的是解释变量和响应变量的联合分布,而不仅仅是前者的条件分布。可能存在我们感兴趣的应用程序,因此我们将超越回归分析,并结合有关解释变量分布的信息。

  • (2) 在一些回归应用中,我们的兴趣是响应变量的条件分布,其条件是一个潜在的未观察到的解释变量,我们假设观察到的解释变量会出现错误(“变量中的错误”)。在这种情况下,我们通过“变量中的错误”来合并不确定性。这样做的原因是我们对这些情况的兴趣在于条件分布,以未观察到的基础变量为条件。

请注意,这两种情况在数学上都比回归分析更复杂,所以如果我们可以使用回归分析,那通常是更可取的。无论如何,在回归分析的大多数应用中,目标是在给定可观察的解释变量的情况下对响应的条件分布进行推断,因此这些概括变得不必要。


请注意,随机化将混杂变量的因果效应分离到随机变量,但它不会将随机变量的因果效应分离到混杂变量,然后再分离到响应。这意味着可能需要其他协议(例如,安慰剂、盲法等)来完全切断因果分析中的所有后门关联。

标题“变量中的错误”和问题的内容似乎不同,因为它询问我们为什么不考虑变量的变化X在对条件响应进行建模时,即在回归参数的推断中。这两个关注点对我来说似乎是正交的,所以我在这里回应一下内容。

我之前回答过一个类似的问题,调节回归变量与将它们视为固定变量有什么区别?,所以在这里我将在那里复制我的部分答案:

我将尝试更正式地充实以回归量为条件的论点。(Y,X)是一个随机向量,兴趣在于回归YX, 其中回归是指条件期望YX. 在多正态假设下,这将是一个线性函数,但我们的论点并不依赖于此。我们以通常的方式开始考虑联合密度

f(y,x)=f(yx)f(x)
但是这些函数是未知的,所以我们使用参数化模型
f(y,x;θ,ψ)=fθ(yx)fψ(x)
在哪里θ参数化条件分布和ψ的边际分布X. 在正常的线性模型中,我们可以有θ=(β,σ2)但这不是假设的。的全参数空间(θ,ψ)Θ×Ψ,一个笛卡尔积,并且两个参数没有共同点。

这可以解释为统计实验(或数据生成过程,DGP)的分解,首先X是根据生成的fψ(x),作为第二步,Y根据条件密度生成fθ(yX=x). 请注意,第一步不使用任何关于θ,只进入第二步。统计数据X是辅助的θ,请参阅https://en.wikipedia.org/wiki/Ancillary_statistic

但是,根据第一步的结果,第二步可能或多或少地提供关于θ. 如果分布由fψ(x)具有非常低的方差,例如,观察到的x会集中在一个小区域,所以估计会比较困难θ. 所以,这个两步实验的第一部分确定了θ可以估计。因此,很自然地以条件为条件X=x关于回归参数的推断。这就是条件论点,上面的大纲清楚地表明了它的假设。

在设计的实验中,它的假设大部分都成立,通常观察数据不成立。一些问题的例子是:以滞后响应作为预测变量的回归。在这种情况下,以预测变量为条件也将以响应为条件!(我将添加更多示例)。

一本详细讨论这个问题的书是信息和指数族: O. E Barndorff-Nielsen 的统计理论。尤其参见第 4 章。作者说这种情况下的分离逻辑很少被解释,但提供了以下参考资料:RA Fisher (1956) Statistical Methods and Scientific Inference §4.3和 Sverdrup (1966)决策理论和 Neyman-Pearson 理论的现状


这里使用的因式分解在精神上与充分统计的因式分解定理有些相似。如果重点是回归参数θ, 和分布X不依赖θ,那么如何分布(或变化)X包含有关信息θ?

这种分离论点也很有帮助,因为它指出了不能使用它的情况,例如将滞后响应作为预测变量的回归。