循环推理?

机器算法验证 神经网络 特征选择
2022-03-23 23:32:48

目前,我正在处理一个庞大的遗传数据数据集。它包含大约 1500 个变量。我的目标是根据这些数据对疾病风险组(20% 的受试者)进行分类。起初,我运行了一系列 Mann-Whitney U 检验并确定了 32 个显着性 <0.01 水平的变量。如果我没记错的话,其中 15 个变量可能是随机过程的结果。但我的目标是训练一个神经网络来进行成功的分类。我有 400 个受试者,不可能成功地训练一个具有全套变量的模型。如果我只从重要的 u-test 中获取 32 个变量,我会得到一个不错的模型。我的问题是。这是某种循环推理吗?

提前致谢!

3个回答

这并不可怕,但也不是很好。理想情况下,考虑到其他变量的存在,我们希望网络能够整理出什么是重要的/不重要的。另一方面,大量不相关的特征会使拟合和正则化任务成为一项具有挑战性的任务,因此很难责怪您采用不同的方法。

在 Neal 和 Zhang 的贝叶斯神经网络的Elements of Statistical Learning(第 2 版,第 11.9 节)中描述了一位著名研究人员以这种方式使用单变量测试的有用示例。(不要费心去寻找 Neal 和 Zhang 的文章,发表在一个晦涩的文本中——ESL中的讨论很好地涵盖了它。)

它与循环推理有关。因为与结果相关而选择的变量可能会继续显示(使用替代方法)它们与结果相关。交叉验证非常重要。根据数据的子集(“训练集”)选择预测变量,并在保留集(​​“测试集”)上测试它们的预测准确性。事实上,这需要多次完成——通常是数百或数千次,通过代码自动化——以产生具有可接受置信区间的准确度的稳定估计。

由于过度拟合,您的临时选择方法保证会提高误报率。

从哲学上讲,我不确定这是否是一种形式上的“循环推理”——实际上这就像辩论天使的性别,引用 Miguel Hernan 的话。

具有 1500 个比较原因的 0.01 显着性水平会导致预期的 15 个错误发现。这意味着您的 32 个 U-stat 统计显着特征中有近一半是有问题的。换句话说,有 10 个或更多错误发现的概率是 88%。我认为 0.01 的显着性截断在这里是站不住脚的。您的家庭错误率您应该更好地控制多重比较,Bonferroni 不完美但很容易做到。截止值再次尝试您的临时方法。10.991500=0.99999970.05/1400=0.00004