我正在研究二进制分类问题。
gender我确实有某些输入分类变量,例如ethnicity等。
但是所有记录都具有相同的值。意思是,我数据集中的所有 10K 记录都具有female性别值。种族也一样。
在模型构建过程中直接排除这些变量可以吗?
还是保留它们很重要?由于没有变化(输出类之间的这些变量),我假设它们不会对输出做出任何贡献。
可以帮我解决这个问题吗?
我正在研究二进制分类问题。
gender我确实有某些输入分类变量,例如ethnicity等。
但是所有记录都具有相同的值。意思是,我数据集中的所有 10K 记录都具有female性别值。种族也一样。
在模型构建过程中直接排除这些变量可以吗?
还是保留它们很重要?由于没有变化(输出类之间的这些变量),我假设它们不会对输出做出任何贡献。
可以帮我解决这个问题吗?
如果您的数据集中只有女性,则向模型输入添加性别特征不会改善它。
关于为什么它不会帮助模型之间的变化的技术解释,但直觉很简单 - 模型试图找到特征和标签之间的相关性,并且任何变量与固定值变量之间的相关性为零。
您没有直接询问它,但值得一提的是,如果分类问题与性别有关,那么该模型在女性身上的效果会比在男性身上更好,因为您没有关于她们的数据。无论您是否添加这些功能都是如此。
我以性别特征为例,但答案对任何其他特征都有效。