如何最好地利用地理信息作为一个因素?

数据挖掘 机器学习 预测建模 地理空间
2022-02-19 14:08:55

我试图预测犯罪率,我天真地使用了 lat 和 long 作为两个独立的因素(这似乎运作良好!)。是否有任何将位置作为因素的最佳做法?

3个回答

如果您正在预测某个地区的犯罪率,我们可能会使用聚类来推断有用的信息。在聚类中,基本上,我们将尝试将相似的数据点组合在一起并将它们视为一个类。我们可以通过一个实例来理解这一点。

我们有不同的点(纬度和经度),每个点都代表某种类型的犯罪。即使仅通过观察,我们也可以得出结论,某些特定类型的犯罪仅发生在特定地区。基本上,我们将对彼此相邻且属于同一类(种类)的点进行聚类。

例如,一个地区的紧急呼叫(抢劫案件较多)到达,受害者也遭受抢劫的概率高于任何其他犯罪。

随着我们获得更多数据,我们可以重新训练我们的聚类算法以生成更多聚类,从而提高效率。

在过去,对我来说更好的方法是将位置编码为分类变量:

地理哈希蟒

然后将目标编码更改为数字特征:

来自 category_encoders 的目标编码

就出现了粒度的问题,但是可以修改:

您可以在编码时指定任意精度。精度决定 Geohash 中的字符数:

print 'Geohash for 42.6, -5.6:', Geohash.encode(42.6, -5.6, precision=5) Geohash for 42.6, -5.6: ezs42

这实际上取决于您的数据集。没有一套规则:xyz 总是有效

要将其与您的问题进行比较,我建议您在 kaggle 上找到类似的数据集或问题。

例如,人口统计数据可以激发您对如何使用地理信息的一些想法。