为什么使用横截面数据来推断/预测纵向变化是一件坏事?

机器算法验证 参考 面板数据 推理 因果关系 横截面
2022-03-12 03:49:19

我正在寻找一篇我希望存在的论文,但不知道是否存在。它可能是一组案例研究,和/或概率论的一个论点,关于为什么使用横截面数据来推断/预测纵向变化可能是一件坏事(即不一定如此,但可能是)。

我已经看到了几个重大方面的错误:推断是因为英国更富有的人旅行更多,然后随着社会变得更富有,整个人口将更多地旅行。这种推论在很长一段时间内被证明是不正确的——十多年。家庭用电量也有类似的模式:横截面数据意味着收入会大幅增加,但不会随着时间的推移而显现。

有几件事正在发生,包括队列效应和供应方面的限制。

有一个单一的参考资料来汇编这样的案例研究会非常有用;和/或使用概率论来说明为什么使用横截面数据来推断/预测纵向变化可能会非常具有误导性。

是否存在这样的论文,如果存在,它是什么?

2个回答

您通过要求“纵向”更改来部分回答您自己的问题。横截面数据之所以被称为是因为它们及时拍摄了快照,实际上是从具有多种关系的时间演变社会中切下的横截面。因此,您希望做出的最佳推断是假设您正在研究的任何东西都是时间不变的,或者至少已经结束了它的演变。

另一方面,您要查找的数据是经济学家的纵向数据或面板数据。

一个很好的参考资料,主要解释方法,但也突出了经济学中的两个突出例子示例 2.1 包含公司投资率。

第 3 部分理论性更强,但包含很多见解:面板数据模型可以是

yi,t=αyi,t1+xi,tγ+ηi+vi,t.

现在,这种类型的模型可以捕获状态依赖性,这是(在未观察到的异质性旁边)人们行为不同的常见解释。因此,如果您只观察在给定时间点旅行的人,您的将无法识别,这意味着您不知道他们昨天的旅行对他们再次旅行的决定有多大影响。α

现在,暂时关闭时间依赖性,但请记住,这个等式可能是真正的模型。

现在在横截面模型中,您将完全删除下标,因为您只有一个时期的数据。因此,您也无法考虑数据集中的每个人可能具有完全不同的的事实,这通常会使您的回归偏向向上,至少在真实模型是动态的情况下是这样。这可能是高估的原因,因为未观察到的个体效应(也可能很常见),你没有测量,但反映在你的横断面研究中。tηis

现在,再次输入面板数据。我们可以做的是减去每个变量随时间变化的平均值,假设的平均值随时间变化,将消除该术语。这种转换(其他转换也是可能的)允许您只关注动态(实际上您会丢失任何时间不变的回归量)。ηi

现在,这是横截面数据和面板数据之间的主要区别。您可以消除时间不变效应,因为您具有时间变化这一事实允许您消除横截面估计不允许您检测到的某些偏差。因此,在您考虑改变政策(例如提高旅行税)之前,因为您希望人们旅行并且您希望获得更多政府收入,那么在几年内看到这种现象会更有用,这样您就可以确定您不是捕获样本中未观察到的异质性,您将其解释为旅行倾向。

要估计这些模型,最好通过参考。但请注意:关于人们行为的不同假设将使不同的估计程序可接受或不可接受。

我希望这有帮助!

这听起来很像非遍历过程的定义(对实现的测量不等于对时间的测量)。可悲的是,很少有有趣的现实世界现象是遍历的。我想这可能是更精细的采样和推理的情况,其中可能会进行某些简化。我正在考虑小时间或空间尺度的示例,其中没有观察到混沌行为,因此可以线性化预测变量。但我只是在这里胡说八道。恐怕我也无法为您提供有关该主题的具体文献。对不起:/但是有趣的问题