在这里,我询问其他人在监督学习中通常使用卡方检验进行特征选择 wrt 结果的做法。如果我理解正确,他们是否测试每个特征和结果之间的独立性,并比较每个特征的测试之间的 p 值?
在http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test,
Pearson 的卡方检验是一种统计检验,适用于分类数据集,以评估任何观察到的数据集之间的差异偶然出现的可能性有多大。
...
独立性检验评估在列联表中表示的两个变量的成对观察是否相互独立(例如,对来自不同国籍的人的回答进行民意调查以查看一个人的国籍是否与回答相关)。
那么通过测试测试其独立性的两个变量必须是分类的还是离散的(除了分类之外还允许有序),但不是连续的?
从http://scikit-learn.org/stable/modules/feature_selection.html,他们
执行一个测试iris 数据集以仅检索两个最佳特征。
在iris 数据集中,所有特征都是数值和连续值,结果是类标签(分类)。卡方独立性检验如何应用于连续特征?
要将卡方独立性检验应用于数据集,我们是否首先通过 binning 将连续特征转换为离散特征(即首先将特征的连续域离散化到 bin 中,然后用 bin 中出现的特征值替换特征? )?
几个 bin 中的出现形成多项式特征(每个 bin 中出现或不出现),因此卡方独立性检验可以应用于它们,对吗?
顺便说一句,我们可以将卡方独立性检验应用于任何类型的特征和结果,对吗?
对于结果部分,我们不仅可以选择用于分类的特征,还可以选择回归特征,通过卡方独立性检验,通过对连续结果进行分箱,对吗?
-
计算每个非负特征和类之间的卡方统计数据。
此分数可用于从 X 中选择具有最高值的 n_features 个特征,用于测试卡方统计量,它必须仅包含非负特征,例如布尔值或频率 (例如,文档分类中的术语计数),相对于类。
为什么测试需要非负特征?
如果特征没有符号但是是分类的或离散的,测试是否仍然适用于它们?(见我的第 1 部分)
如果特征是负面的,我们总是可以对它们的域进行分类并用它们的出现替换它们(就像我猜想将测试应用于 iris 数据集,见第 2 部分),对吧?
注意:我猜 Scikit Learn 遵循一般原则,这就是我在这里所要求的。如果没有,那还是可以的。