是否有在较低聚合级别应用估计的名称,它是否一定有问题?

机器算法验证 分解
2022-03-15 19:36:41

假设您使用公司级别或州级别的数据估计模型,然后将估计应用于较低的聚合级别,例如工厂级别或县级。如果它使事情变得更容易,想象这是一个模型,描述给定一些输入(X 和 Z)的小部件 Y 的输出。

我想知道:

  1. 有这个名字吗?
  2. 这总是一个坏主意吗?
  3. 如果它不是较低级别的聚合,而只是不同级别的聚合(例如模拟美国州数据,但在 CBSA 数据上使用模型,忽略并非所有美国都在某些 CBSA 中的事实)怎么办?

我认为这与外部有效性和生态谬误有关,但也许还有更具体的东西。


假设每个公司都有一些工厂。

3个回答

假设关系在更精细的聚合水平上是相同的,这正是生态谬误。更一般地说,取决于您如何聚合的关系问题是可修改面积单位问题

+1托马斯的回答

也就是说,这并不总是一个坏主意。例如,在预测中,我们经常有大量嘈杂的时间序列,我们可以合理地期望它们共享一些共同的动态。在这种情况下,通常的做法是在总体水平上估计这些常见的动态,然后将它们加到我们感兴趣的单独序列上。

一个常见的例子是年度季节性对零售额的影响:如果您汇总多个库存单位 (SKU) 和商店,您会看到冰淇淋的季节性足够好,但通常看不到分解的 SKU×店铺级别。因此,人们将汇总总销售额、估计季节性并将其推至分解系列。这种方法通常有助于预测准确性。

最后,这又是一个偏差-方差权衡的例子:与在较低级别上估计(比如说)季节性相比,这个想法会给较低级别​​的模型注入一些偏差,但会减少方差。但话又说回来,包括较低水平的季节性将完全一样。任何一种方法都可能比在分解级别上建模季节性更好 - 或者它们都可能更糟,具体取决于具体情况。

该问题通常在称为聚合分析的领域中得到解决。例如,这里是该领域论文的摘录

长期以来,聚合分析已成为研究市场反应行为的标准方法。聚合加深了我们对社会特征和聚合反应行为之间联系的理解。然而,综合分析受到碎片化和非系统性程序的阻碍,无法确定最合适的综合水平。本文的总体目标是提供一个概念框架来确定数据分析中变量的聚合水平。此外,在该框架中建议使用统计程序来验证和确定变量所代表的聚合水平。概念框架对于决定是从微观分析重点还是宏观分析重点来分析变量很有用。

一个关键的结论是“变量是从微观分析重点还是宏观分析重点进行分析”。

我个人的经验是,在外地办事处层面应用宏观公司开发的预测模型,然后汇总以获得更好的全公司预测,结果证明有点不成功。本地可能会出现明显不同的交叉电流(可能需要扩展模型)。在文献中,还提到了微观层面的异质性,聚合后可能(或可能不会)在很大程度上消除。运气好的话,人们可以实现一个简洁的模型,该模型实际上可以更准确地使用公司级数据进行预测。它还可以避免产生矛盾的结果一般来说,在地方层面发生的模型错误指定可能会导致偏差,在汇总后可能会降低预测质量。