数据挖掘 - 如何最好地利用地理信息作为一个因素？ - 吾爱随笔录

数据挖掘机器学习预测建模地理空间

2022-02-19 14:08:55

我试图预测犯罪率，我天真地使用了 lat 和 long 作为两个独立的因素（这似乎运作良好！）。是否有任何将位置作为因素的最佳做法？

3个回答

如果您正在预测某个地区的犯罪率，我们可能会使用聚类来推断有用的信息。在聚类中，基本上，我们将尝试将相似的数据点组合在一起并将它们视为一个类。我们可以通过一个实例来理解这一点。

我们有不同的点（纬度和经度），每个点都代表某种类型的犯罪。即使仅通过观察，我们也可以得出结论，某些特定类型的犯罪仅发生在特定地区。基本上，我们将对彼此相邻且属于同一类（种类）的点进行聚类。

例如，一个地区的紧急呼叫（抢劫案件较多）到达，受害者也遭受抢劫的概率高于任何其他犯罪。

随着我们获得更多数据，我们可以重新训练我们的聚类算法以生成更多聚类，从而提高效率。

在过去，对我来说更好的方法是将位置编码为分类变量：

然后将目标编码更改为数字特征：

就出现了粒度的问题，但是可以修改：

您可以在编码时指定任意精度。精度决定 Geohash 中的字符数：

print 'Geohash for 42.6, -5.6:', Geohash.encode(42.6, -5.6, precision=5) Geohash for 42.6, -5.6: ezs42

这实际上取决于您的数据集。没有一套规则：xyz 总是有效

要将其与您的问题进行比较，我建议您在 kaggle 上找到类似的数据集或问题。

例如，人口统计数据可以激发您对如何使用地理信息的一些想法。

其它你可能感兴趣的问题