排除预测期间没有变化的变量?

数据挖掘 机器学习 深度学习 神经网络 分类 数据挖掘
2022-02-27 09:35:34

我正在研究二进制分类问题。

gender我确实有某些输入分类变量,例如ethnicity等。

但是所有记录都具有相同的值。意思是,我数据集中的所有 10K 记录都具有female性别值。种族也一样。

在模型构建过程中直接排除这些变量可以吗?

还是保留它们很重要?由于没有变化(输出类之间的这些变量),我假设它们不会对输出做出任何贡献。

可以帮我解决这个问题吗?

1个回答

如果您的数据集中只有女性,则向模型输入添加性别特征不会改善它。

关于为什么它不会帮助模型之间的变化的技术解释,但直觉很简单 - 模型试图找到特征和标签之间的相关性,并且任何变量与固定值变量之间的相关性为零

您没有直接询问它,但值得一提的是,如果分类问题与性别有关,那么该模型在女性身上的效果会比在男性身上更好,因为您没有关于她们的数据。无论您是否添加这些功能都是如此。

我以性别特征为例,但答案对任何其他特征都有效。