我试图预测犯罪率,我天真地使用了 lat 和 long 作为两个独立的因素(这似乎运作良好!)。是否有任何将位置作为因素的最佳做法?
如何最好地利用地理信息作为一个因素?
数据挖掘
机器学习
预测建模
地理空间
2022-02-19 14:08:55
3个回答
如果您正在预测某个地区的犯罪率,我们可能会使用聚类来推断有用的信息。在聚类中,基本上,我们将尝试将相似的数据点组合在一起并将它们视为一个类。我们可以通过一个实例来理解这一点。
我们有不同的点(纬度和经度),每个点都代表某种类型的犯罪。即使仅通过观察,我们也可以得出结论,某些特定类型的犯罪仅发生在特定地区。基本上,我们将对彼此相邻且属于同一类(种类)的点进行聚类。
例如,一个地区的紧急呼叫(抢劫案件较多)到达,受害者也遭受抢劫的概率高于任何其他犯罪。
随着我们获得更多数据,我们可以重新训练我们的聚类算法以生成更多聚类,从而提高效率。
在过去,对我来说更好的方法是将位置编码为分类变量:
然后将目标编码更改为数字特征:
就出现了粒度的问题,但是可以修改:
您可以在编码时指定任意精度。精度决定 Geohash 中的字符数:
print 'Geohash for 42.6, -5.6:', Geohash.encode(42.6, -5.6, precision=5) Geohash for 42.6, -5.6: ezs42
其它你可能感兴趣的问题