我正在尝试在人口普查区块组级别对商店的销售数据进行建模,以预测潜在新餐厅的销售情况。例如,我知道商店 2 有一个巨大的闪烁霓虹灯,其 101 街区组的销售额为 2000 美元,该街区距离商店 2 2.5 英里,那里有 600 户家庭和 50 人住在大学宿舍。到目前为止,这是相当标准的。
美中不足的是,一般商店有大约 30% 的销售数据由于某种原因无法进行地理编码(新建建筑、大学宿舍、军事基地、以速记方式记下地址的懒惰员工等),这样我就只知道处理销售的商店,而不知道这些客户的居住地。
我对未地理编码数据建模的方法是从汇总商店贸易区域周围的人口统计数据和所有未地理编码的销售开始,这样即使我不知道这些客户在哪里,我至少可以尝试了解销售行为根据商店周围的情况。例如,如果我的商店靠近大学校园或有大量建筑,我希望它具有更高的未地理编码销售额,其他条件相同。
这工作得相当好,但地理编码和未地理编码的销售模型没有以任何方式链接,这是有问题的。本质上,我的地理编码销售是用与我的解释变量相关的非球形误差来衡量的。未经地理编码的销售通常会随着地理编码的销售而增加,这也是这种情况。我试图通过在地理编码销售模型中包含未地理编码的总销售额的一部分以及在未地理编码模型中的总地理编码销售额来解决第一个问题,但我不知道如何为我感兴趣的潜在销售站点定义这些变量在预测中。我想我可以将未地理编码的销售额设置为 30%,然后预测地理编码的销售额,并使用它来预测未地理编码的销售额,但是有没有更好的方法来链接这两个模型以进行更好的估计和预测?