我在寻找相关性方面是否正确

数据挖掘 特征选择
2022-03-04 08:42:51

我想执行特征选择,有 128 个实值标准化特征和 1/0 标签。下面是第 1 类和第 0 类的特征 a5 密度直方图。数据有偏差,因此第 1 类的权重约为 5%。

在此处输入图像描述

接下来,我从左侧减去右侧曲线,以消除“正常”(相对于该特征)分布。我假设如果 50% 的特征值位于两个类中的例如 [0.1-0.2] 中,这意味着这个范围对于我的类来说没什么特别的。这就是我做减法的原因。这有望为我提供此功能有助于选择 Class0 的范围(结果曲线的正值)。这个假设正确吗?

在此处输入图像描述

然后我以这种方式为所有功能构建图表。下面是两个不同的功能。我认为最左边的比最右边的要好,在与一类或另一类相关时给出更清晰的区别(右边是嘈杂的),如果需要减少特征数量,可以删除最右边的。它是否正确?

在此处输入图像描述

0个回答
没有发现任何回复~