如何将位置代码表示为机器学习模型中的特征?

数据挖掘 机器学习 特征选择 特征提取 特征工程 特征构造
2022-02-23 05:16:11

我试图在包含“区号”作为特征的数据集上预测地震后建筑物的损坏情况。我认为该功能在预测标签方面具有重要意义,但我不确定如何最好地表示它。

有什么想法吗?

2个回答

你可以随心所欲地发挥创意,但这里有两种对我有用的通用方法。

  1. 将数据聚类到已知的地理区域并创建虚拟变量。例如,在美国,一个人可以使用邮政编码。
  2. 找到已知集群(即邮政编码)的中心或通过一些类似的无监督集群并使用经度和纬度。

您选择如何增强该信息取决于您要预测的确切内容。

假设区号在它们所代表的内容上是分类的,而不是序数,则区号应表示为分类特征。最简单的方法是用 n 个二进制变量来表示每个可能的区域。

为了改善结果,我会尝试找到一个区间类型的特征,比如纬度和经度。