关于通过假设检验进行特征选择的 1 与 2 尾检验的混淆

机器算法验证 机器学习 假设检验 贝叶斯 特征选择 朴素贝叶斯
2022-03-12 00:32:23

假设个样本的属性值,平均的属性值来自类的样本,平均值为xi (i=1,2,...,N)NW1μ1yi (i=1,2,...,N)NW2μ2

对于使用假设检验的特征选择,为什么我们应该定义H0=μ1μ2=0

2个回答

这是一种认为为真的想法:(B)

您有两个类,通常我们分类为您需要选择一个增加的特征。Z=0,1P(Z=1|X)>0.5P(Z=1|feature)

我认为,如果您假设正态性并使用LDA(我的意思是假设不同类别的特征方差相等),那么您应该能够将问题与特征的均值联系起来。如果您以这种方式看待问题,我也认为 2 是唯一正确的答案。

假设 a其中然后 如果P(Z=1|feature)=μfeature+ba>0P(Z=1|x)>P(Z=1|Y)μx>μy

选项 B 是错误的。

我假设特征选择的目的是识别有助于区分类别的预测因子。从表面上看,如果两个类在类条件期望中观察到的差异大于在机会+测试假设下合理发生的差异,那么应该使用该预测器来构建模型。

假设符号μ1μ2确实很重要,并进一步假设我们会选择特征x因为我们拒绝测试的空值。类的标签是任意的,所以交换它们W1W2反之亦然。重要的是要强调数据本身没有任何变化,只有类标签。

在这种排列下,符号μ1μ2会翻转,我们将无法拒绝空值,因此不会选择x作为一个特点。这不是该过程的理想属性。我们选择的特征不应该依赖于任意标签。

这里很清楚你的助教犯了一个错误,如果助教坚持他们是正确的,那么他们将不得不处理我在这里概述的困境:要么程序依赖于任意标签,要么依赖于差异的符号是不相关的(除非我们已经使它相关,在这种情况下,这里的问题是没有实际意义的,考试问题是罪魁祸首)。

你已经提供了一个有信誉的来源,所以我认为不需要额外的来源。你是对的,答案应该是A。