调节回归变量与将它们视为固定变量有什么区别?

机器算法验证 回归 推理 哲学的 调理 辅助统计
2022-02-05 04:56:45

有时我们假设回归量是固定的,即它们是非随机的。认为这意味着我们所有的预测变量、参数估计等都是无条件的,对吧?我什至可以走得太远以至于它们不再是随机变量吗?

另一方面,如果我们接受经济学中的大多数回归变量是随机的,因为没有外部力量通过一些实验来决定它们。然后,计量经济学家以这些随机回归量为条件。

这与将它们视为固定的有什么不同?

我明白什么是条件反射。从数学上讲,这意味着我们使所有观察和推断都以特定回归量集为条件,并且没有野心说如果我们看到回归量的不同实现(例如时间序列的症结,每个时间序列只出现一次)。

但是,要真正掌握固定回归量与随机回归量条件之间的区别,我想知道这里是否有人知道一个估计或推理过程的示例,该示例对固定回归量有效但在它们是随机的时会崩溃(并且会有条件)。

我期待看到这些例子!

2个回答

在这里,我如履薄冰,但让我尝试一下:我有一种感觉(请发表评论!)统计学和计量经济学之间的主要区别在于,在统计学中,我们倾向于将回归变量视为固定的,因此术语设计矩阵显然来自实验设计,假设我们首先选择然后固定解释变量。

但是对于大多数数据集,大多数情况,这是不合适的。我们确实在观察解释变量,从这个意义上说,它们与响应变量处于同一基础,它们都是由我们无法控制的一些随机过程决定的。通过将视为“固定”,我们决定不考虑可能导致的很多问题。x

另一方面,通过将回归变量视为随机变量,正如计量经济学家倾向于做的那样,我们开启了尝试考虑此类问题的建模的可能性。然后我们可能会考虑并纳入建模的问题的简短列表是:

也许,这应该比今天更频繁地完成?另一种观点是,模型只是近似值,推理应该承认这一点。非常有趣的论文The Conspiracy of Random Predictors and Model Violations against Classical Inference in Regression by A. Buja et.al。持这种观点并认为非线性(未明确建模)破坏了下面给出的辅助论点。

EDIT 

我将尝试更正式地充实以回归量为条件的论点。是一个随机向量,兴趣在于 X 上的回归回归表示的条件期望。在多正态假设下,这将是一个线性函数,但我们的论点并不依赖于此。我们首先以通常的方式 分解关节密度, 但这些函数是未知的,因此我们使用参数化模型 其中参数化条件分布,(Y,X)YXYX

f(y,x)=f(yx)f(x)
f(y,x;θ,ψ)=fθ(yx)fψ(x)
θψ的边际分布在正常的线性模型中,我们可以有但这不是假设的。的全参数空间,一个笛卡尔积,两个参数没有共同点。Xθ=(β,σ2)(θ,ψ)Θ×Ψ

这可以解释为统计实验(或数据生成过程,DGP)的分解,首先根据,然后作为第二步,根据条件密度生成请注意,第一步不使用任何关于的知识,仅在第二步中输入。统计数据的辅助,请参阅https://en.wikipedia.org/wiki/Ancillary_statisticXfψ(x)Yfθ(yX=x)θXθ

但是,根据第一步的结果,第二步可能或多或少地提供有关的信息。给出的分布具有非常低的方差,例如,观察到的将集中在一个小区域中,因此估计将更加困难。因此,这个两步实验的第一部分确定了可以估计因此,在回归参数的推断中这就是条件论点,上面的大纲清楚地表明了它的假设。θfψ(x)xθθX=x

在设计的实验中,它的假设大部分都成立,通常观察数据不成立。一些问题的例子是:以滞后响应作为预测变量的回归。在这种情况下,以预测变量为条件也将以响应为条件!(我将添加更多示例)。

一本详细讨论这个问题的书是信息和指数族: O. E Barndorff-Nielsen 的统计理论。特别参见第 4 章。作者说这种情况下的分离逻辑很少被解释,但给出了以下参考资料:RA Fisher (1956) Statistical Methods and Scientific Inference 和 Sverdrup (1966) The present state of the decision theory and内曼-皮尔逊理论§4.3


+1 给 Kjetil b halvorsen。他的回答很有启发性,这个也不例外。我确实认为这里还有一些额外的贡献,因为问题询问“将回归量视为固定”(如在使用珀尔语言的假设干预中),但也涉及“修复回归量”(如在真实的设计实验中) )。

在此处输入图像描述


这就是令人困惑的地方。让我们区分 3 种不同的范式:

  1. 你设计一个实验。您将肥料水平设置为 1、2、3 单位(这是回归量),然后观察产量(这是结果变量)。这是一个真正的实验。你执行了它。在这种情况下,回归量是非随机的,因为您确定了在每个地块上放多少肥料,而不是掷骰子或其他一些随机实验。
  2. 您有一个关于产量和肥料的观测数据集,并且您不确定如何将产量分配给地块,因此您不能假设它是随机分配的。您对产量|肥料产量|肥料感兴趣。这相当于将数据集过滤到分配了 3 个单位肥料的地块并计算其平均产量,然后将数据集过滤到分配了 2 个单位肥料的地块并计算其平均产量,然后取 2平均值。在这种情况下,调节相当于过滤。需要注意的是,这不是将肥料从 2 增加到 3 的因果效应。这只是对现有数据集的总结。E[=3]E[=2]
  3. 你有一个关于产量和肥料的观测数据集,你知道在阳光充足的地区施了更多的肥料,你的农业知识告诉你,更多的阳光转化为更高的产量。假设没有其他因素共同决定肥料的分配方式和结果,这样您就可以假设您的因果 DAG 是完整且正确的。假设您对肥料用量从 2 增加到 3 时肥料对产量的因果影响感兴趣。使用 Judea Pearl 的 do 运算符,这个问题可以等效地写为:换句话说,如果我们执行假设,这个问题要求平均产量的差异
    E[yield|do(fertilizer=3)]E[yield|do(fertilizer=2)]
    实验中,我们首先为每块地分配 2 单位的肥料并计算平均产量,然后每块地施用 3 单位的肥料并计算平均产量,然后取这两个平均值之间的差值。要回答这个问题,我们必须在 X = 肥料和 Z = 地块的阳光下都设置 Y = 产量。

在第三种情况下,您正在想象一个与现实不同的替代世界你在想象一些反事实的东西。这是您想象一个回归量水平已固定为特定值的世界。在第二种情况下,您按原样接受/观察现实并想对其进行总结回归量是随机的,您可以根据它来获取过滤数据集的摘要。在第一种情况下,你创造了现实您修复了现实世界中的回归量,并且还必须在靴子上弄些灰尘,因为您实际上是在进行实验。

有时我们假设回归量是固定的,即它们是非随机的。 我认为这意味着我们所有的预测变量、参数估计等都是无条件的,对吧? 我什至可以走得太远以至于它们不再是随机变量吗?


这并不完全正确。当回归量是确定性/非随机时,是的,它们不是随机变量。然而,OLS 估计量仍然是非常随机的变量,因为它们是 Y_i 的线性组合并且是随机变量(即使所有回归量都是确定性的),因为是随机变量。是的,当 x 是非随机的: 但当 X 是随机的:这是一个关键的区别。YiYiϵi

E[Y|x]=β0+β1x+E[ϵ|x]=β0+β1x+E[ϵ]=E[Y]
E[Y|X]=β0+β1X+E[ϵ|X]β0+β1E[X]+E[ϵ]=E[Y]