目前,我正在处理一个庞大的遗传数据数据集。它包含大约 1500 个变量。我的目标是根据这些数据对疾病风险组(20% 的受试者)进行分类。起初,我运行了一系列 Mann-Whitney U 检验并确定了 32 个显着性 <0.01 水平的变量。如果我没记错的话,其中 15 个变量可能是随机过程的结果。但我的目标是训练一个神经网络来进行成功的分类。我有 400 个受试者,不可能成功地训练一个具有全套变量的模型。如果我只从重要的 u-test 中获取 32 个变量,我会得到一个不错的模型。我的问题是。这是某种循环推理吗?
提前致谢!