我有一个包含 28 个属性和 7 个类值的数据集。我想知道是否有可能为每个类找出决定类值的最重要的属性。
例如,答案可能是:属性 2 对 1 类最重要,属性 6 对 2 类最重要,等等。或者更明智的答案可能是:属性 2 低于 0.5 对 1 类最重要,属性 6 是高于 0.75 对 2 类等最重要
我最初的方法是在数据上构建一个决策树,并找到每个类具有最大信息增益/增益比的节点,这将是该类的最决定因素。问题是我发现的决策树实现没有给出每个节点的信息增益/增益比,因为这是时间限制,我没有时间实现我自己的版本。我目前的想法是创建多个数据集,这些数据集都是一个类而不是其他类,然后对它们执行属性选择(例如信息增益)以找到最重要的属性。这是向下的正确方向还是他们更好的选择?

