包含地理空间元素的多类分类

数据挖掘 特征提取 多类分类
2022-02-10 10:31:11

我正在尝试训练一个分类器来预测不同郊区商品的不同价格。我有几个特征,其中两个是郊区质心的纬度和经度。

我正在尝试训练模型对 10 美元大小的箱子中的物品价格进行分类。地理空间元素肯定会影响商品的价格,但是我拥有的训练数据会有差距(即我没有所有郊区的价格)。

设计包含此地理空间信息并能够填补训练/测试数据空白的功能的最佳方法是什么?

到目前为止,我已经尝试为与首都的方位和距离创建新的特征,这似乎工作正常,以及对表现比方位/距离差的纬度和经度进行分箱。我确实考虑过使用 geohash,但是我认为这对于分类器来说太复杂了,无法理解。

1个回答

如果这是美国模式,您可以尝试县 (FIPS) 代码,这是比邮政编码更粗略的区域(一个县可能有很多邮政编码)。如果方位和距离对您有用,这也应该有效。您的分类器需要处理分类数据。在 R 中,如果您已经有邮政编码,这很容易做到:

library(noncensus)
data(zip_codes)
my_dataframe['fips']<-zip_codes$fips[match(my_dataframe$zip, zip_codes$zip)]

这假设您已经有一个my_dataframe使用邮政编码作为名为“zip”的列调用的数据框。

作为奖励,您可以使用choroplethr包创建一些标量值的漂亮可视化,例如,您的商品价格:

library(choroplethr)
df_to_plot<-data.frame()
df_to_plot['region']<-my_dataframe$fips
df_to_plot['value']<-my_dataframe$price

county_choropleth(df_to_plot, title='price by location')

在此处输入图像描述