如何在您的要素中同时包含起点和终点?

数据挖掘 机器学习 回归 特征选择 特征工程 地理空间
2022-02-20 19:14:47

我正在尝试预测货运的运输价格。我认为会产生重大影响的两个重要特征是 Origin 和 Destination。将其包含在您的功能中的最佳方式是什么?

它们是分类变量,如果我对其进行编码,数据集将非常稀疏。我考虑过将这两个特征也转换为纬度坐标并将它们视为数值变量。

以前有人处理过这种情况吗?

1个回答

由于您的目标是预测价格,我认为包含以下功能会更有用:

  • 出发地和目的地之间的距离
  • 始发地和目的地是否在同一个州/国家/大陆/地区...

然而,实际的出发地和目的地可能仍然有用,至少是频繁的,所以值得尝试。在你的训练数据中只出现一次或两次的那些不太可能对模型有帮助,相反它们可能会导致过度拟合。因此,您可以过滤掉出现次数少于次的出发地/目的地城市并保留其他城市。这很可能会大大减少可能值的数量。N