如何为深度学习标准化 gps 坐标

机器算法验证 机器学习 深度学习 正常化
2022-03-24 03:30:38

我正在做一个项目,我必须建立一个深度学习模型,对车辆的停车类型进行分类。我的数据集包含一些车辆相关数据,如车辆 ID、车辆类型等,以及 GPS 相关数据,如沿途车辆的经度和纬度、标准差和持续时间。作为第一步,我正在尝试构建一个模型,该模型可以获取我目前拥有的所有输入,而无需任何特征工程。我已经读过,如果我向模型提供标准化数据,模型会更快地收敛。但是,我见过一些模型没有使用归一化数据(例如著名的房价预测模型)。所以我的问题是,我应该如何标准化坐标!?

2个回答

并非所有模型都对数据规范化敏感。例如,具有批处理规范层的模型具有固定激活分布的内置机制。其他人则更敏感,甚至可能因为缺乏归一化而出现分歧(例如,尝试在 CIFAR-10 数据集上使用训练图像训练 CNN,其中像素在范围内[0,255])。

但我不知道有任何模型会受到数据规范化的影响。因此,即使房屋预测模型(顺便说一句,究竟是哪一个?)可能无法做到这一点,但如果数据被标准化,该模型可能会有所改善,您也应该这样做。

GPS 数据大致有以下界限:纬度在[-100,100], 经度在[-200,200]. 人口稠密区域的坐标要窄得多,但假设这些广泛的范围并不是什么大不了的事。这意味着转型...

XX100

...将确保纬度在[-1,1]经度在[-2,2](而且很可能在[-1,1]以及),这对于深度学习来说是相当稳健的范围。转换很简单(numpy只需要一行代码)并且不需要您从训练数据中计算统计数据。

我认为Maxim的答案没有错,但可能会产生误导。当您将 lon、lat 值用于车辆停止分类等任务时,您可能会寻找一个标准化空间,在那里您可以简单地学习距离、速度或加速度等潜在特征。经度和纬度值的问题在于,您不能简单地推断出距离。一个Δ(ln,l一个)会导致不同的距离,具体取决于您是在赤道还是在极圈之一。对于您的任务,我会推荐Jan van der Vegt的这个答案提出的一些建议

x = cos(lat) * cos(lon)
y = cos(lat) * sin(lon), 
z = sin(lat) 

然后可以适当地标准化这些特征。