假设我们有两组小的特征向量(每个特征向量代表一个项目)。找到两个(小,50 个样本)集之间哪些特征具有最大差异(分布)的好方法是什么?鉴于每个特征的数据分布不一定是正常的。
找到区分两组的最重要特征
数据挖掘
机器学习
数据清理
2022-01-29 14:53:14
1个回答
您的问题的重新表述将是:
哪些特征可以更准确地区分这两个数据集,因为它们之间存在很大差异?
回答这个问题的一种常见方法是检查属性的信息增益,基于数据集熵的减少。具有最高信息增益的属性是更准确地分离数据集的属性。
假设你有m个属性,你需要:
- 根据样本所属的数据集(A 或 B)标记样本
- 尝试根据每个属性的值拆分数据集。这意味着您需要执行m splits。
- 最大化信息增益的分裂,从而最小化两个分裂组的个体子熵,显示了最好地分离数据的属性。此属性是两个数据集中差异最大的属性,也是您问题的答案。
仅供参考,这正是在训练决策树时所做的,以删除(修剪)信息量不足的特征,以便:
- 减少树的方差
- 减少训练/推理时间
其它你可能感兴趣的问题