找到区分两组的最重要特征

数据挖掘 机器学习 数据清理
2022-01-29 14:53:14

假设我们有两组小的特征向量(每个特征向量代表一个项目)。找到两个(小,50 个样本)集之间哪些特征具有最大差异(分布)的好方法是什么?鉴于每个特征的数据分布不一定是正常的。

1个回答

您的问题的重新表述将是:

哪些特征可以更准确地区分这两个数据集,因为它们之间存在很大差异?

回答这个问题的一种常见方法是检查属性的信息增益,基于数据集熵的减少。具有最高信息增益的属性是更准确地分离数据集的属性。

假设你有m个属性,你需要:

  1. 根据样本所属的数据集(A 或 B)标记样本
  2. 尝试根据每个属性的值拆分数据集。这意味着您需要执行m splits
  3. 最大化信息增益的分裂,从而最小化两个分裂组的个体子熵,显示了最好地分离数据的属性。此属性是两个数据集中差异最大的属性,也是您问题的答案。

仅供参考,这正是在训练决策树时所做的,以删除(修剪)信息量不足的特征,以便:

  1. 减少树的方差
  2. 减少训练/推理时间