假设个样本的属性值,平均和是的属性值来自类的样本,平均值为。
对于使用假设检验的特征选择,为什么我们应该定义
假设个样本的属性值,平均和是的属性值来自类的样本,平均值为。
对于使用假设检验的特征选择,为什么我们应该定义
这是一种认为为真的想法:
您有两个类,通常我们分类为。您需要选择一个增加的特征。
我认为,如果您假设正态性并使用LDA(我的意思是假设不同类别的特征方差相等),那么您应该能够将问题与特征的均值联系起来。如果您以这种方式看待问题,我也认为 2 是唯一正确的答案。
假设 a其中。然后 如果。
选项 B 是错误的。
我假设特征选择的目的是识别有助于区分类别的预测因子。从表面上看,如果两个类在类条件期望中观察到的差异大于在机会+测试假设下合理发生的差异,那么应该使用该预测器来构建模型。
假设符号确实很重要,并进一步假设我们会选择特征因为我们拒绝测试的空值。类的标签是任意的,所以交换它们到反之亦然。重要的是要强调数据本身没有任何变化,只有类标签。
在这种排列下,符号会翻转,我们将无法拒绝空值,因此不会选择作为一个特点。这不是该过程的理想属性。我们选择的特征不应该依赖于任意标签。
这里很清楚你的助教犯了一个错误,如果助教坚持他们是正确的,那么他们将不得不处理我在这里概述的困境:要么程序依赖于任意标签,要么依赖于差异的符号是不相关的(除非我们已经使它相关,在这种情况下,这里的问题是没有实际意义的,考试问题是罪魁祸首)。
你已经提供了一个有信誉的来源,所以我认为不需要额外的来源。你是对的,答案应该是A。