我有一个数据集,其中一个(重要的)特征是距纽约市的地理距离。当然,有些价值是缺失的……目标是预测具有某些属性的人(接近是其中之一,而典型的年龄、性别、教育等是其他属性)是否会在纽约(例如,参观现代艺术博物馆、参加百老汇演出、完全搬到城市、就读地区学校,诸如此类)。
我的基本问题是 - 除了缺失值 - 只考虑“原样”的距离是否正确,或者是否应该以某种方式将它们划分为“驾驶/火车距离”和“飞行距离”(本质上,将它们转换为“通过最有效的方式到达纽约市需要几个小时”)?
如果我们以洛杉矶和弗吉尼亚州里士满为例——从洛杉矶到纽约市的距离大约是里士满的 10 倍;飞行时间仅延长 4 倍,但从洛杉矶出发的飞行时间和从里士满出发的车程时间大致相同。那么思考这个问题的正确方法是什么?
一旦确定了正确的距离方法,如何为缺失值估算距离?