我的目标是预测出售给定财产所需的天数,让我们将此变量称为“DaysForSale” - 简而言之 DfS
使用 DfS,我创建了一个名为“median_dfs_grouped_street_name”的变量,它返回为数据集中可用的不同街道出售房产所需的中位数天数。(街道名称都是分类的)。
在此之后,我进行训练/测试拆分并运行我的随机森林方法。
使用 feature_importances 函数,我看到新功能是第二重要的,这让我想知道这是否是正确的方法?
我有两个问题:
- 使用目标变量开发功能是错误的吗?
- 对完整数据集进行特征工程有错吗?