如何处理数据中随时间变化的区域定义?

机器算法验证 时间序列 造型 大数据 面板数据 数据预处理
2022-03-28 14:28:39

我刚刚发现我的数据集比我预期的要混乱得多,我想知道这里是否有人有一些建议。我有按区域划分的销售数据(国家一级的 5 个大断点,然后每个国家级大断点内有 4-6 个断点,第二个断点就是我所说的区域。之后的分解是所有商店在一个区域内销售。),但我刚刚发现区域中包含的内容会随着时间的推移而变化。

在过去的 3 年中,他们移除了 3 个区域,然后将销售转移到其他区域(想象一下,将双城的所有销售额,然后决定在 2 月 1 日将它们从被记录为“双城”改为其中一半被录制为“麦迪逊”,另一半与“芝加哥”相关联)。

此外,一家商店(地区之后的细分)从一个地区转移到另一个地区(所以在 2 月 1 日,我的商店从被记录为在在芝加哥销售的孪生城市)。

自然,这是我的数据集中不包含的信息(统计人员在进行数据决策时没有任何事情),所以我有一个当前没有指向此信息的链接的多维数据集。在访问数据库中,我可以访问各个商店级别的数据,该数据是他们每月区域关联的列表(因此对于我的商店,它会在每个单元格中显示“双城”,直到 2012 年 2 月 1 日,然后切换到“麦迪逊”)。

我有两个想法来解决这个问题。首先是通过访问数据库,识别区域定义一致的商店并删除所有其他商店,然后将其与我已经拥有的数据连接起来(当我的 IT 人员让我访问 SSMS 中的信息时) . 这相当于从数据中删除任何曾经切换过区域的商店。我在这里看到的问题是,它将删除我想象的大量数据,并且从某些区域中删除的数据将比其他区域更多,因为某些区域比其他区域移动更多(而且我们仍然有3 个完整的区域移除过程)。

我正在考虑的另一件事(不确定它是否合法)是通过并添加一个虚拟变量,如果存在区域变化,则为 1 并将其包含在我的模型中。这并没有解决多个更改,但是如果我在模型中包含该信息,它应该处理其中的一些,是吗?

我想提出一个不涉及破坏我的数据集的解决方案,这就是我现在所倾向于的。可能只是可以忽略存储级别的变化,因为它们有点常见并且不是那么大的变化,但是删除一个区域并移动它似乎太大而无法忽略。谢谢你的建议。

更新:看起来我们的数据团队已经实施了解决方案,请参阅@peter 和我在下面的评论以了解解决方案。

1个回答

我可能错了,但你为什么不自己预测每家商店,然后将它们汇总到当前的“重大突破”。