标题“变量中的错误”和问题的内容似乎不同,因为它询问我们为什么不考虑变量的变化X在对条件响应进行建模时,即在回归参数的推断中。这两个关注点对我来说似乎是正交的,所以我在这里回应一下内容。
我之前回答过一个类似的问题,调节回归变量与将它们视为固定变量有什么区别?,所以在这里我将在那里复制我的部分答案:
我将尝试更正式地充实以回归量为条件的论点。让(Y,X)是一个随机向量,兴趣在于回归Y在X, 其中回归是指条件期望Y在X. 在多正态假设下,这将是一个线性函数,但我们的论点并不依赖于此。我们以通常的方式开始考虑联合密度
f(y,x)=f(y∣x)f(x)
但是这些函数是未知的,所以我们使用参数化模型
f(y,x;θ,ψ)=fθ(y∣x)fψ(x)
在哪里θ参数化条件分布和ψ的边际分布X. 在正常的线性模型中,我们可以有θ=(β,σ2)但这不是假设的。的全参数空间(θ,ψ)是Θ×Ψ,一个笛卡尔积,并且两个参数没有共同点。
这可以解释为统计实验(或数据生成过程,DGP)的分解,首先X是根据生成的fψ(x),作为第二步,Y根据条件密度生成fθ(y∣X=x). 请注意,第一步不使用任何关于θ,只进入第二步。统计数据X是辅助的θ,请参阅https://en.wikipedia.org/wiki/Ancillary_statistic。
但是,根据第一步的结果,第二步可能或多或少地提供关于θ. 如果分布由fψ(x)具有非常低的方差,例如,观察到的x会集中在一个小区域,所以估计会比较困难θ. 所以,这个两步实验的第一部分确定了θ可以估计。因此,很自然地以条件为条件X=x关于回归参数的推断。这就是条件论点,上面的大纲清楚地表明了它的假设。
在设计的实验中,它的假设大部分都成立,通常观察数据不成立。一些问题的例子是:以滞后响应作为预测变量的回归。在这种情况下,以预测变量为条件也将以响应为条件!(我将添加更多示例)。
一本详细讨论这个问题的书是信息和指数族: O. E Barndorff-Nielsen 的统计理论。尤其参见第 4 章。作者说这种情况下的分离逻辑很少被解释,但提供了以下参考资料:RA Fisher (1956) Statistical Methods and Scientific Inference §4.3和 Sverdrup (1966)决策理论和 Neyman-Pearson 理论的现状。
这里使用的因式分解在精神上与充分统计的因式分解定理有些相似。如果重点是回归参数θ, 和分布X不依赖θ,那么如何分布(或变化)X包含有关信息θ?
这种分离论点也很有帮助,因为它指出了不能使用它的情况,例如将滞后响应作为预测变量的回归。