机器算法验证 - SelectKBest - 特征选择 - Python - SciKit 学习 - 吾爱随笔录

SelectKBest - 特征选择 - Python - SciKit 学习

机器算法验证机器学习自习特征选择 scikit-学习

2022-03-27 22:02:44

我正在学习使用 Python 和 SciKit 学习的特征选择。我遇到了 SelectKBest 类，但是不清楚执行的是哪种测试。

Select features according to the k highest scores.

http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html#sklearn.feature_selection.SelectKBest

我发现的 k 分数的唯一参考来自以下维基百科页面。

Cohen's kappa coefficient is a statistic which measures inter-rater agreement for qualitative (categorical) items.

SelectKBest类的k-score是指上面的吗？谢谢你。

1个回答

不，SelectKBest工作方式不同。

它将分数函数作为参数，该函数必须适用于一对 ( , )。score 函数必须返回一个分数数组，对于 X 的每个特征X一个分数（此外，它还可以返回 p 值，但这些既不需要也不需要）。然后简单地保留中得分最高个特征。 $X$ $y$ $X[:, i]$ $X$ SelectKBest $k$ $X$

因此，例如，如果您chi2作为分数函数传递，SelectKBest将计算和的每个特征之间的 chi2 统计量（假设是类标签）。较小的值意味着该特征独立于。非随机相关，因此很可能提供重要信息。仅保留 $X$ $y$ $y$ $y$ $k$

最后，SelectKBest实现了默认行为，因此您可以编写select = SelectKBest()然后调用select.fit_transform(X, y)（实际上我看到人们这样做）。在这种情况下SelectKBest使用f_classifscore 函数。的值解释为类标签，并为 X 的每个特征计算一个统计量。使用的公式正是这里给出的公式：单向 ANOVA F-test，其中的不同值的数量。较大的分数表明组的均值并不完全相同。这不是很丰富，只有在满足一些相当严格的条件时才是正确的：例如，值 $y$ $X[:, i]$ $X$ $F$ $K$ $y$ $K$ $X[:, i]$ 必须来自正态分布的总体，且组的总体方差必须相同。我不明白为什么这在实践中应该成立，如果没有这个假设，值是没有意义的。因此，不小心使用可能会因为错误的原因而丢掉许多功能。 $K$ $F$ SelectKBest()

其它你可能感兴趣的问题

上一篇理解广义线性模型中的链接函数下一篇关于概率的书籍推荐