我现在参加了一些 DataScience 比赛,我注意到一些非常奇怪和令人沮丧的事情。为什么会令人沮丧?因为,从理论上讲,当你阅读数据科学时,它都是关于特征,以及对这些特征的仔细选择、提取和工程化,以从原始变量中提取最大信息,到目前为止,将每个变量按原样扔进混合中似乎使用正确的编码可以正常工作。即使删除具有 80% 空值的变量(理论上应该是过度拟合的贡献者)也会略微降低回归模型的性能。
对于一个实际案例:我有 long/lat 作为接送点和目的地点。我完成了计算与这些点的距离(各种距离)的逻辑任务。并放弃了长/纬度。当您在特征列表中同时包含(坐标和距离)时,模型的性能会更好。有什么解释吗?以及对我的困境的一般思考,以及特征选择/工程/提取的真正效用
编辑:是不是我们可以从坐标中得到的信息大于距离?是否可以提取对我的模型更有益的特征,即简单的长/纬度?