一个在所有其他类别中占主导地位的类别特征的价值有多大?

数据挖掘 机器学习 数据挖掘 特征选择 数据清理 特征工程
2022-02-20 03:41:17

一个类别特征几乎均等地分布在其类别中更重要还是其中一个类别比所有其他类别更重要?在“房价”竞赛的数据预处理步骤中,我想确定街道特征是否重要,或者我可以将其从数据集中删除以避免过度拟合。所以我绘制了一个群体图如下: 我应该如何解释这个图?它是否表明可以删除 Street 图,或者说它对创建模型很有价值?在此处输入图像描述

1个回答

特征重要性是一个经验问题。训练一个包含该特征的模型。训练另一个没有该特征的模型。然后看看哪个模型在预测新数据(即测试数据集)时表现更好。训练数据集和测试数据集上模型性能之间的差异是衡量过度拟合的一种方法。