在这里,我如履薄冰,但让我尝试一下:我有一种感觉(请发表评论!)统计学和计量经济学之间的主要区别在于,在统计学中,我们倾向于将回归变量视为固定的,因此术语设计矩阵显然来自实验设计,假设我们首先选择然后固定解释变量。
但是对于大多数数据集,大多数情况,这是不合适的。我们确实在观察解释变量,从这个意义上说,它们与响应变量处于同一基础,它们都是由我们无法控制的一些随机过程决定的。通过将视为“固定”,我们决定不考虑可能导致的很多问题。x
另一方面,通过将回归变量视为随机变量,正如计量经济学家倾向于做的那样,我们开启了尝试考虑此类问题的建模的可能性。然后我们可能会考虑并纳入建模的问题的简短列表是:
- 回归变量中的测量误差。
- 回归量和误差项之间的相关性。
- 滞后响应作为回归量,请参阅在回归中包含滞后因变量。
- ...
也许,这应该比今天更频繁地完成?另一种观点是,模型只是近似值,推理应该承认这一点。非常有趣的论文The Conspiracy of Random Predictors and Model Violations against Classical Inference in Regression by A. Buja et.al。持这种观点并认为非线性(未明确建模)破坏了下面给出的辅助论点。
EDIT
我将尝试更正式地充实以回归量为条件的论点。设是一个随机向量,兴趣在于 X 上的回归,回归表示对的条件期望。在多正态假设下,这将是一个线性函数,但我们的论点并不依赖于此。我们首先以通常的方式
分解关节密度,
但这些函数是未知的,因此我们使用参数化模型
其中参数化条件分布,(Y,X)YXYXf(y,x)=f(y∣x)f(x)
f(y,x;θ,ψ)=fθ(y∣x)fψ(x)
θψ的边际分布。在正常的线性模型中,我们可以有但这不是假设的。的全参数空间是,一个笛卡尔积,两个参数没有共同点。Xθ=(β,σ2)(θ,ψ)Θ×Ψ
这可以解释为统计实验(或数据生成过程,DGP)的分解,首先根据,然后作为第二步,根据条件密度生成。请注意,第一步不使用任何关于的知识,仅在第二步中输入。统计数据是的辅助,请参阅https://en.wikipedia.org/wiki/Ancillary_statistic。Xfψ(x)Yfθ(y∣X=x)θXθ
但是,根据第一步的结果,第二步可能或多或少地提供有关的信息。给出的分布具有非常低的方差,例如,观察到的将集中在一个小区域中,因此估计将更加困难。因此,这个两步实验的第一部分确定了可以估计因此,在回归参数的推断中这就是条件论点,上面的大纲清楚地表明了它的假设。θfψ(x)xθθX=x
在设计的实验中,它的假设大部分都成立,通常观察数据不成立。一些问题的例子是:以滞后响应作为预测变量的回归。在这种情况下,以预测变量为条件也将以响应为条件!(我将添加更多示例)。
一本详细讨论这个问题的书是信息和指数族: O. E Barndorff-Nielsen 的统计理论。特别参见第 4 章。作者说这种情况下的分离逻辑很少被解释,但给出了以下参考资料:RA Fisher (1956) Statistical Methods and Scientific Inference 和 Sverdrup (1966) The present state of the decision theory and内曼-皮尔逊理论。§4.3