说高方差特征对我的模型很重要是否正确?

数据挖掘 机器学习 统计数据 方差
2022-02-15 16:15:45

分析 3 个特征我遇到了以下情况:其中两个几乎没有方差,最后一个的方差比另一个大(几乎是两倍)。仅使用此信息假设具有更多方差的特征对我的模型更重要是否正确?此外,如果一个特征的方差为 0,那么模型根本不会从中学到任何东西,对吗?

最后,如果您有一些不错的参考资料,我很乐意阅读它们。

2个回答

高特征方差并不意味着与您对建模感兴趣的目标变量有任何关系。假设您正在查看一个人口,每个人有两个变量,他们的身高(米)和年收入(美元)。身高的差异会很小(身高差异不会超过 1 米),但收入的差异会很大(收入可能相差数千)。如果你想预测一个人的臂展,他们的身高将比他们的收入更好地预测,尽管它的方差在数值上更小。

零方差特征没有任何预测能力,但根据您的目标,即使是数值上很小的波动也可能非常重要。

零方差的特征在模型中没有预测能力。零方差意味着特征值在不同的目标值中是恒定的。

具有更高方差的特征具有更高的预测能力。但是,这取决于具体问题。特征的预测能力只有在拟合模型后才能知道。