如何对地理编码和未地理编码的销售数据之间的关系进行建模?

机器算法验证 预测 空间的 计量经济学 缺失数据 测量误差
2022-03-26 14:35:16

我正在尝试在人口普查区块组级别对商店的销售数据进行建模,以预测潜在新餐厅的销售情况。例如,我知道商店 2 有一个巨大的闪烁霓虹灯,其 101 街区组的销售额为 2000 美元,该街区距离商店 2 2.5 英里,那里有 600 户家庭和 50 人住在大学宿舍。到目前为止,这是相当标准的。

美中不足的是,一般商店有大约 30% 的销售数据由于某种原因无法进行地理编码(新建建筑、大学宿舍、军事基地、以速记方式记下地址的懒惰员工等),这样我就只知道处理销售的商店,而不知道这些客户的居住地。

我对未地理编码数据建模的方法是从汇总商店贸易区域周围的人口统计数据和所有未地理编码的销售开始,这样即使我不知道这些客户在哪里,我至少可以尝试了解销售行为根据商店周围的情况。例如,如果我的商店靠近大学校园或有大量建筑,我希望它具有更高的未地理编码销售额,其他条件相同。

这工作得相当好,但地理编码和未地理编码的销售模型没有以任何方式链接,这是有问题的。本质上,我的地理编码销售是用与我的解释变量相关的非球形误差来衡量的。未经地理编码的销售通常会随着地理编码的销售而增加,这也是这种情况。我试图通过在地理编码销售模型中包含未地理编码的总销售额的一部分以及在未地理编码模型中的总地理编码销售额来解决第一个问题,但我不知道如何为我感兴趣的潜在销售站点定义这些变量在预测中。我想我可以将未地理编码的销售额设置为 30%,然后预测地理编码的销售额,并使用它来预测未地理编码的销售额,但是有没有更好的方法来链接这两个模型以进行更好的估计和预测?

2个回答

我没有简洁的答案,但我确实有一些建议和评论太长了,无法发表一条评论......

让您 70% 的销售额来自具有名称和邮政编码的交易(使其可以匹配给定贸易区域中的地址)似乎真的非常好。我建议不要因为无法追踪的交易而陷入困境,而是根据需要简单地扩大预测。但是,为此,您应该澄清您当前的方法是否能够对现有商店的销售进行建模。具体来说,现有商店的预测误差分布如何?

关于无法地理编码的 30% 销售额,我怀疑这大致是每家商店现金交易的百分比,这些当然是无法追踪的。但是,我也怀疑现金交易通常会降低门票价值,并且现金与信用卡交易的比率与交易区的收入中位数相关。因此,一个有用的预测可能是根据新商店的不动产和贸易区域来预测现金(因此较低的门票)交易与信用卡交易的比率。这将为您提供缩放总销售额所需的未地理编码交易的“影响大小”。

据我了解,情况如下。你有关于商店、它的下落以及销售地理编码或非地理编码的数据。对于每个区块,您都有一部分销售已进行地理编码,其余部分未进行地理编码。

现在,如果您有许多商店的可用数据,您可以使用模型从新块可用的数据中预测未地理编码销售的分数。例如,您已经注意到

“例如,如果我的商店靠近大学校园或有大量建筑,我希望它具有更高的非地理编码销售额,其他条件相同。”

由此,您可以预测地理编码销售额的比例=1-(未地理编码销售额的比例)。现在,检查根据两个模型预测的分数是否对应于上述公式,即分数总和为 1。使用 Fisher 检验检查它们之间的相关性是否显着,可以了解从另一个分数中找到一个分数的想法是否正确.