我试图在包含“区号”作为特征的数据集上预测地震后建筑物的损坏情况。我认为该功能在预测标签方面具有重要意义,但我不确定如何最好地表示它。
有什么想法吗?
我试图在包含“区号”作为特征的数据集上预测地震后建筑物的损坏情况。我认为该功能在预测标签方面具有重要意义,但我不确定如何最好地表示它。
有什么想法吗?
你可以随心所欲地发挥创意,但这里有两种对我有用的通用方法。
您选择如何增强该信息取决于您要预测的确切内容。
假设区号在它们所代表的内容上是分类的,而不是序数,则区号应表示为分类特征。最简单的方法是用 n 个二进制变量来表示每个可能的区域。
为了改善结果,我会尝试找到一个区间类型的特征,比如纬度和经度。