估计模型中的位置

数据挖掘 机器学习 预测建模 算法 机器学习模型
2022-02-16 00:15:00

我有一个包含 10 列和大约 100,000 行的大数据集。每 5 行代表一个被跟踪的人以及与此跟踪相关的数据,例如时间、速度等。最后两列是该人的经度和纬度。

为了测试模型,测试集的第五行是每个人在经度和纬度上的缺失。解决这个问题的最佳方法是什么?

例如测试集看起来像:

id   time    feature2  feature3  long    lat
1      x          x        x     number  number
1      x          x        x     number  number
1      x          x        x     number  number
1      x          x        x     number  number
1      x          x        x     
2      x          x        x     number  number
2      x          x        x     number  number
2      x          x        x     number  number
2      x          x        x     number  number
2      x          x        x     

ETC

1个回答

一种选择是对经度和纬度进行聚类。基于经度和纬度的点估计在很多时候都是错误的。聚类会降低数据的精度,以增加模型近似正确的机会。

经度和纬度可以使用诸如H3之类的空间感知索引进行聚类。空间感知索引允许不同大小的 bin。