GPS坐标(纬度和经度)可以用作线性模型中的特征吗?

数据挖掘 机器学习 特征选择 线性回归 特征提取 地理空间
2021-10-05 05:42:52

我的数据集包含许多特征,其中包括 GPS 坐标(纬度和经度)。我想使用这些数据集来探索以下问题:(1)计算ETA以在起点和终点之间行驶;(2) 估计特定点的犯罪数量。

我想使用线性回归模型。但是,我可以直接在线性模型中使用这些 GPS 坐标吗?

纬度和经度没有序数属性,例如一个人的年龄。例如,两个点 (40.805996, -96.681473) 和 (41.226682, -95.986587) 似乎没有任何有意义的排序。它们只是空间中的点。我正在考虑用分类的美国邮政编码替换它们,然后进行一次性编码,但这会导致很多变量。

3个回答

您不能直接使用它们,因为除非您要预测某人“向东或向北多远”,否则不太可能存在真正的线性关系。如评论中所述,您需要将它们转换为区域。如果您想让它保持非常简单,您可以使用具有少量潜在集群的 kNN 聚类算法,然后为每个实例分配一个具有集群 ID 的新特征,然后对其进行 one-hot 编码。

您可能还想了解人们如何通过插值坐标来预测整个地图的值。第一个例子是温度站,但你也可以想象它是犯罪的“热区”。

文档

您可以随心所欲,但除非您的模型预测温度或时差,否则我无法提出任何其他仅取决于坐标的目标变量。

您可能想要做的是使用外部数据源并使用有助于模型执行的国家/邮政编码/气候/其他地理特征来丰富您的数据。

GPS 坐标可以直接转换为geohashGeohash 根据位数将地球划分为不同大小的“桶”(短 Geohash 代码创建大区域,较长代码用于较小区域)。

geohash 是可以用作模型中的特征的单个数字。

Geohash 仅适用于整个世界,邮政编码不适用。