特征对实例空间子集而不是整个实例空间的重要性

数据挖掘 机器学习 特征选择 预处理
2021-09-18 19:31:07

我真的很好奇以前是否有人遇到过这个问题,或者它是否被广泛研究过。

想象一下,我们有一个在整个训练数据实例空间中并不重要的特征(基于许多广泛可用的教科书特征选择方法)。但是,如果我们尝试将实例空间划分为某些子集,该特征是否会在该子集上变得重要,并且是否有任何方法可用于任意数据集?

当我说“划分实例空间”时,我的意思是,例如,如果我有 3 个功能 X0,X1,X2 带有二进制标签 ,实例空间的一个子集将是一个区域,例如,当 X0>5,X1>5. 特别是,是否有可能X2在整个实例空间中并不重要,但在上述受限空间中很重要。如果可能的话(我的直觉是这样说的),当前文献中是否有任何方法可以让我找到这样的空间(如果存在)?

如果有人有任何链接/论文/资源可以引导我进行类似的研究,我也很乐意接受。

1个回答

这在实践中很常见。例如,在生物信息学领域,蛋白质可以在非常有限的范围内显着改变表型,但超出该范围几乎没有影响。

如果你想要“最高效应范围”落在哪里,我推荐部分依赖图,它是 ICE 图的手段。它提供了优于决策树的优势,因为您不会轻易地过度拟合您的训练数据集,并且可以应用于高维数据。这是情节的一个例子。在这里阅读更多以下包具有上述的一些实现:

  1. mlinsights - https://ml-insights.readthedocs.io/en/latest/
  2. https://media.readthedocs.org/pdf/pdpbox/latest/pdpbox.pdf

这是上面的一个不错的例子: 等离子显示器

如果您只想知道某件事是否重要,而不是重要的地方您可以使用在开创性随机森林论文第 20-21 页中非常简要地概述的排列重要性或平均精度降低的东西:https ://www.stat.berkeley.edu/~breiman/randomforest2001.pdf

查看 eli5 包以便于计算。