数据挖掘 - 找到区分两组的最重要特征 - 吾爱随笔录

数据挖掘机器学习数据清理

2022-01-29 14:53:14

假设我们有两组小的特征向量（每个特征向量代表一个项目）。找到两个（小，50 个样本）集之间哪些特征具有最大差异（分布）的好方法是什么？鉴于每个特征的数据分布不一定是正常的。

1个回答

您的问题的重新表述将是：

哪些特征可以更准确地区分这两个数据集，因为它们之间存在很大差异？

回答这个问题的一种常见方法是检查属性的信息增益，基于数据集熵的减少。具有最高信息增益的属性是更准确地分离数据集的属性。

假设你有m个属性，你需要：

仅供参考，这正是在训练决策树时所做的，以删除（修剪）信息量不足的特征，以便：

其它你可能感兴趣的问题