卡方检验可以用于什么样的特征选择?

机器算法验证 假设检验 卡方检验 特征选择 独立 scikit-学习
2022-03-19 11:05:50
  1. 在这里,我询问其他人在监督学习中通常使用卡方检验进行特征选择 wrt 结果的做法。如果我理解正确,他们是否测试每个特征和结果之间的独立性,并比较每个特征的测试之间的 p 值?

  2. http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test

    Pearson 的卡方检验是一种统计检验,适用于分类数据集,以评估任何观察到的数据集之间的差异偶然出现的可能性有多大。

    ...

    独立性检验评估在列联表中表示的两个变量的成对观察是否相互独立(例如,对来自不同国籍的人的回答进行民意调查以查看一个人的国籍是否与回答相关)。

    那么通过测试测试其独立性的两个变量必须是分类的还是离散的(除了分类之外还允许有序),但不是连续的?

  3. http://scikit-learn.org/stable/modules/feature_selection.html,他们

    执行一个χ2测试iris 数据集以仅检索两个最佳特征。

    iris 数据集中,所有特征都是数值和连续值,结果是类标签(分类)。卡方独立性检验如何应用于连续特征?

    要将卡方独立性检验应用于数据集,我们是否首先通过 binning 将连续特征转换为离散特征(即首先将特征的连续域离散化到 bin 中,然后用 bin 中出现的特征值替换特征? )?

    几个 bin 中的出现形成多项式特征(每个 bin 中出现或不出现),因此卡方独立性检验可以应用于它们,对吗?

    顺便说一句,我们可以将卡方独立性检验应用于任何类型的特征结果,对吗?

    对于结果部分,我们不仅可以选择用于分类的特征,还可以选择回归特征,通过卡方独立性检验,通过对连续结果进行分箱,对吗?

  4. scikit 学习网站还说

    计算每个非负特征和类之间的卡方统计数据。

    此分数可用于从 X 中选择具有最高值的 n_features 个特征,用于测试卡方统计量,它必须仅包含非负特征,例如布尔值或频率 (例如,文档分类中的术语计数),相对于类。

    为什么测试需要非负特征?

    如果特征没有符号但是是分类的或离散的,测试是否仍然适用于它们?(见我的第 1 部分)

    如果特征是负面的,我们总是可以对它们的域进行分类并用它们的出现替换它们(就像我猜想将测试应用于 iris 数据集,见第 2 部分),对吧?

注意:我猜 Scikit Learn 遵循一般原则,这就是我在这里所要求的。如果没有,那还是可以的。

1个回答

我认为您的部分困惑是卡方可以比较哪些类型的变量。维基百科对此有以下说法:

它检验一个零假设,即在样本中观察到的某些事件的频率分布与特定的理论分布一致。

因此它比较频率分布,也称为计数,也称为非负数。不同的频率分布由分类变量定义;即,对于分类变量的每个值,都需要有一个可以与其他变量进行比较的频率分布。

有几种方法可以获得频率分布。它可能来自第二个分类变量,其中计算与第一个分类变量的共现以获得离散频率分布。另一种选择是对分类变量的不同值使用(多个)数值变量,它可以(例如)对数值变量的值求和。事实上,如果分类变量被二值化,则前者是后者的特定版本。

例子

例如,看看这些变量集:

x = ['mouse', 'cat', 'mouse', 'cat']
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

分类变量xy可以通过计算共现进行比较,这就是卡方检验发生的情况:

                 'mouse'    'cat'
'wild'              1         0
'domesticated'      1         2

但是,您也可以对 'x' 的值进行二值化并获取以下变量:

x1 = [1, 0, 1, 0]
x2 = [0, 1, 0, 1]
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

计算这些值现在等于对与 的值对应的值求和z

                 x1    x2
'wild'           1     0
'domesticated'   1     2

如您所见,单个分类变量 ( x) 或多个数值变量 (x1x2) 在列联表中均由 表示。因此,卡方检验可以应用于一个分类变量(sklearn 中的标签)与另一个分类变量或多个数值变量(sklearn 中的特征)相结合。