交叉验证是微阵列数据特征/模型选择的有效方法吗?

机器算法验证 机器学习 交叉验证 威卡 微阵列
2022-03-23 03:10:03

我一直在与WEKA合作,使用这个(相当老的..)乳腺癌数据集构建类预测器数据集分为训练集和测试集。我一直在使用训练集上的 10 倍交叉验证实验来测试不同的学习方案(主要集中在特征选择上)。不幸的是,当我在测试集上尝试训练好的模型时,交叉验证的分数和实际测试集的性能之间似乎没有任何相关性。

这是微阵列或其他高维/低样本计数数据的一致问题吗?是否有另一种方法比交叉验证更适合评估训练数据上的模型?

2个回答

答案似乎真的是交叉验证不是很好,因为它的结果非常多变,但它仍然是可用的最佳选择。唯一的其他竞争方法似乎是 0.632 bootstrap 估计器,它的方差略低,但也低估了真实性能。请参阅交叉验证对小样本微阵列分类是否有效?. 同样具有相关性 - (可能很明显) - 包含的特征越多,cv 估计的方差就越高。

我认为问题可能是您的训练集太小,因此不能代表整个人群,如果您在更小的测试集上对其进行测试,这些数据可能会非常不同。这更像是一个一般的大 p 小 n 问题,并且无论是否是遗传学,都属于那种类型的问题。它与基因预测乳腺癌结果的能力无关。事实上,我认为有几种生物标志物可用于估计完全切除肿瘤的患者的复发概率。