谁编写了 gini 重要性/sklearn 的特征重要性分数的公式?

数据挖掘 特征选择 随机森林 特征工程
2022-02-24 01:38:35

我一直在寻找一篇首次提出基尼重要性的论文,但我不确定这是否真的是这样。

这是我熟悉并希望在论文中找到的公式:

NsNt(iNsrNsirNslNsil)

在哪里

Ns= 特定节点的样本数

Nt= 总样本数

i= 杂质

r= 右子节点的度量

l= 左子节点的度量

如果我理解正确,这是 sklearn 的随机森林也使用的公式model.feature_importances_

标签(因为我还没有创建新的代表):特征重要性分数,基尼重要性

1个回答

有一篇论文涵盖了“基尼指数的起源”。Leo Breiman 等人详细介绍了 Gini 指数。在 1984 年的“分类和回归树”一书中。Leo Breiman 还在 2001 年写了一篇关于随机森林的开创性论文,其中包括特征重要性的概念。