对于始终具有相同值的特征是否有标准术语,即可以丢弃而不会丢失信息?
例如,我正在尝试对猫与狗进行分类,而我的训练集中的每个示例都有has_two_eyes=true.
我在想诸如“无用”、“冗余”、“恒定”或“退化”之类的东西,但我不知道这里的标准术语是什么。
对于始终具有相同值的特征是否有标准术语,即可以丢弃而不会丢失信息?
例如,我正在尝试对猫与狗进行分类,而我的训练集中的每个示例都有has_two_eyes=true.
我在想诸如“无用”、“冗余”、“恒定”或“退化”之类的东西,但我不知道这里的标准术语是什么。
我认为有几个术语,但我最常看到的一个是“零方差预测器”或“零方差特征”
经过更多研究,我相信这是机器学习语言中的一种“冗余”功能。冗余特征是可以通过仅查看输入来证明不添加任何信息的特征。这也可用于描述与另一个特征具有 ±1 相关性的特征,但完全相关和零方差特征都是多余的,因为您可以在不查看目标的情况下看到它们不添加任何信息。
具体来说,我可能会称其为“冗余的恒定值功能”。
冗余特征与不相关的特征相关,没有预测能力。但是,有必要考虑目标以确定某个特征是否不相关。例如,这可以通过计算特征重要性来完成。一个不相关特征的例子可以是一个随机值,因此它不会与目标相关,因此不可能帮助预测先前未见过的例子的目标值。
维基百科关于特征选择的文章很好地解释了这些概念。
我相信丹·斯卡利(Dan Scally)回答的“零方差预测器”同样有效,只是在统计学中更常见——所以如果这是你的领域,那么它可能是更合适的术语。
我发现“接近零方差预测器”在特征接近但不完全为零方差的情况下更具描述性。“零方差预测器”似乎是一种令人费解的说法,该特征总是采用相同的值,所以我更愿意称它为常数值特征,但这只是我的偏好。