我有一个包含 10 列和大约 100,000 行的大数据集。每 5 行代表一个被跟踪的人以及与此跟踪相关的数据,例如时间、速度等。最后两列是该人的经度和纬度。
为了测试模型,测试集的第五行是每个人在经度和纬度上的缺失。解决这个问题的最佳方法是什么?
例如测试集看起来像:
id time feature2 feature3 long lat
1 x x x number number
1 x x x number number
1 x x x number number
1 x x x number number
1 x x x
2 x x x number number
2 x x x number number
2 x x x number number
2 x x x number number
2 x x x
ETC