数据挖掘 - 您将始终具有相同价值的功能称为什么？ - 吾爱随笔录

数据挖掘特征选择

2022-02-28 08:01:41

对于始终具有相同值的特征是否有标准术语，即可以丢弃而不会丢失信息？

例如，我正在尝试对猫与狗进行分类，而我的训练集中的每个示例都有has_two_eyes=true.

我在想诸如“无用”、“冗余”、“恒定”或“退化”之类的东西，但我不知道这里的标准术语是什么。

2个回答

我认为有几个术语，但我最常看到的一个是“零方差预测器”或“零方差特征”

经过更多研究，我相信这是机器学习语言中的一种“冗余”功能。冗余特征是可以通过仅查看输入来证明不添加任何信息的特征。这也可用于描述与另一个特征具有 ±1 相关性的特征，但完全相关和零方差特征都是多余的，因为您可以在不查看目标的情况下看到它们不添加任何信息。

具体来说，我可能会称其为“冗余的恒定值功能”。

冗余特征与不相关的特征相关，没有预测能力。但是，有必要考虑目标以确定某个特征是否不相关。例如，这可以通过计算特征重要性来完成。一个不相关特征的例子可以是一个随机值，因此它不会与目标相关，因此不可能帮助预测先前未见过的例子的目标值。

我相信丹·斯卡利（Dan Scally）回答的“零方差预测器”同样有效，只是在统计学中更常见——所以如果这是你的领域，那么它可能是更合适的术语。

我发现“接近零方差预测器”在特征接近但不完全为零方差的情况下更具描述性。“零方差预测器”似乎是一种令人费解的说法，该特征总是采用相同的值，所以我更愿意称它为常数值特征，但这只是我的偏好。

其它你可能感兴趣的问题