嵌套位置数据的平均估计

数据挖掘 统计数据 特征工程 特征提取 贝叶斯
2021-10-07 12:45:01

我想估计一个位置的平均收入。我以以下方式嵌套数据:一个街区在一个街区内,在一个邮政编码内,在一个地区内,在一个地区内,在一个州内。

我想估计一个区块级别的平均收入,问题是我在那个级别没有太多数据。我在州一级有更多数据,但这不是一个很好的近似值。

你会如何处理这个问题?有什么方法可以整合块级别没有很多数据点的不确定性?是否有任何贝叶斯框架可以让我们合并所有级别的数据?混合模型是否有可能做到这一点?

如果您解释任何方法,如果您可以提供构建该方法的python包,那就太好了!

谢谢!

2个回答

我不知道情况是否如此,但如果某种连续性假设是现实的,您可以尝试从分类变量(块)转向连续变量(经度和纬度)。然后,如果你有关于两个相邻块的信息,你可以用样条线插值这些值。

当然,这也可以拟合到具有预测变量的机器学习模型中,例如距离 < x 的区块的平均收入。如果您没有附近街区的数据,那么您的州平均值可能是下一个最佳近似值。

您的州级数据可以用作预测器,也可以用作验证。

此外,绘制数据总是有助于获得某种直觉。

一种选择是转向更严格的地理信息系统 (GIS) 数据结构。

例如,plus 代码H3都是为嵌套的位置数据设计的。如果您的数据被重新格式化为任一系统,您可以轻松选择聚合位置数据的精度级别。