我正在研究一个具有 25 个特征的虚构数据集。其中两个特征是一个地方的纬度和经度,另一个是不同范围的 pH 值、海拔、风速等。我可以对其他特征执行归一化,但如何处理纬度/经度特征?
编辑:这是一个预测农业产量的问题。我认为纬度/经度非常重要,因为位置在预测中至关重要,因此进退两难。
我正在研究一个具有 25 个特征的虚构数据集。其中两个特征是一个地方的纬度和经度,另一个是不同范围的 pH 值、海拔、风速等。我可以对其他特征执行归一化,但如何处理纬度/经度特征?
编辑:这是一个预测农业产量的问题。我认为纬度/经度非常重要,因为位置在预测中至关重要,因此进退两难。
经纬度坐标有一个问题,它们是代表三维空间的 2 个特征。这意味着长坐标四处走动,这意味着两个最极端的值实际上非常接近。我已经处理过这个问题几次,在这种情况下我所做的是将它们映射到 x、y 和 z 坐标。这意味着这 3 个维度中的接近点在现实中也很接近。根据用例,您可以忽略高度的变化并将它们映射到一个完美的球体。然后可以适当地标准化这些特征。
澄清(从评论中总结):
x = cos(lat) * cos(lon)
y = cos(lat) * sin(lon),
z = sin(lat)